Clear Sky Science · es
Comparación del consumo de energía y la precisión en la inferencia de clasificación de texto
Por qué importa la IA que consume mucha energía
Detrás de los chatbots y las herramientas inteligentes para documentos, los ordenadores consumen electricidad en silencio. A medida que los modelos de lenguaje grandes crecen y se vuelven más comunes, su apetito energético plantea interrogantes para los objetivos climáticos y los presupuestos públicos. Este artículo plantea una pregunta simple pero crucial: cuando usamos IA para clasificar y etiquetar texto, ¿realmente necesitamos los modelos más grandes, o pueden herramientas más pequeñas y ligeras hacer el trabajo igual de bien usando mucha menos energía?
Clasificar quejas del mundo real
Los autores basan su estudio en una tarea concreta de la administración pública alemana: procesar las objeciones por escrito de ciudadanos sobre dónde almacenar residuos radiactivos de alta actividad. Cientos de declaraciones breves debían agruparse en categorías como problemas de datos o requisitos del emplazamiento para poder enviarlas a los expertos adecuados. Es un problema clásico de clasificación de texto al que se enfrentan gobiernos, empresas y ONG cada vez que triagean correos, tickets de soporte o comentarios públicos.
Para ello, los investigadores usaron un conjunto de datos público depurado de 378 presentaciones etiquetadas. Lo dividieron en mitades iguales para entrenamiento y prueba y repitieron cada experimento diez veces con diferentes particiones aleatorias para evitar resultados fortuitos. Luego compararon modelos tradicionales de aprendizaje automático —como regresión logística y gradient boosting alimentados con características textuales simples— con una amplia gama de modelos modernos de lenguaje grande, incluidos modelos abiertos recientes de las familias Llama, Qwen, Phi, Jamba y DeepSeek. Todos los modelos grandes se usaron “tal cual” en modo zero-shot: recibieron instrucciones de la tarea y el texto, pero no se entrenaron adicionalmente en las categorías específicas.

Midiendo electricidad, no solo respuestas correctas
La mayoría de los artículos de IA destacan la precisión y poco más. Aquí, los autores miden no solo con qué frecuencia cada modelo clasifica el texto correctamente, sino también cuánta energía consume mientras lo hace y cuánto tiempo tarda. Ejecutan sus experimentos en tres clústeres de alto rendimiento equipados con distintas generaciones de GPUs NVIDIA. Usando la herramienta CodeCarbon, estiman la potencia consumida por procesadores, tarjetas gráficas y memoria durante la fase de inferencia —el momento en que los modelos se usan realmente para hacer predicciones. Se centran en condiciones de “arranque en caliente” que reflejan despliegues reales, donde un modelo permanece cargado en memoria y procesa muchos documentos en secuencia.
Este montaje les permite explorar varias preguntas prácticas: ¿los modelos grandes son siempre más precisos? ¿Más GPUs ahorran tiempo sin ahorrar energía? ¿Cuánto importa la elección del hardware? ¿Y puede el tiempo de ejecución simple —el tiempo real que necesita un modelo— servir como un proxy aproximado de su consumo energético cuando no hay mediciones directas disponibles?
Modelos más pequeños, facturas más pequeñas
El hallazgo central es llamativo: para el conjunto de datos sobre residuos radiactivos, un modelo lineal tradicional construido sobre incrustaciones de oraciones precomputadas es a la vez el más preciso y mucho más eficiente energéticamente que cualquiera de los modelos de lenguaje grande probados. Incluso los modelos tradicionales más sencillos superan a varios modelos grandes consumiendo cantidades mínimas de energía. En contraste, algunos de los modelos más grandes, especialmente aquellos con pasos internos adicionales de “razonamiento”, consumen cientos o miles de veces más electricidad sin ofrecer mejores resultados.
Al observar distintos entornos de hardware, la GPU domina el consumo de energía siempre que intervienen modelos grandes. Añadir más GPUs acelera la inferencia pero generalmente no reduce la energía total, y distribuir un modelo entre varios nodos de cómputo empeora la situación debido a la sobrecarga de comunicación. Cuando los autores examinan varios conjuntos de datos más allá del caso de residuos nucleares —temas de noticias, opiniones de clientes, sentimiento en películas y emociones— encuentran un panorama más matizado: en algunas tareas, los modelos grandes alcanzan una precisión claramente mayor, pero esa mejora a menudo tiene un coste energético elevado. En todos los escenarios, el consumo de energía escala casi linealmente con el tiempo de ejecución, lo que significa que cuánto tarda un modelo es un muy buen sustituto de cuánto consume en una máquina dada.

Hacia decisiones de IA conscientes del clima
Más allá de los números, el artículo sostiene que la IA sostenible debe juzgarse por lo menos en dos ejes separados: qué tan bien realiza una tarea y cuántos recursos consume. Más grande no es automáticamente mejor, y confiar por defecto en modelos masivos de propósito general para clasificación rutinaria implica emisiones innecesarias, mayores costes operativos y tiempos de procesamiento más largos. Los autores recomiendan que las organizaciones comiencen con modelos ligeros y transparentes como líneas base, pasen a modelos de lenguaje más grandes solo cuando demuestren una mejora real en la precisión, y siempre ponderen esa ganancia frente a las demandas de energía y hardware.
Qué significa esto para los sistemas cotidianos
Para el público general, el mensaje es claro: cuando un sistema de IA etiqueta tu correo, enruta tu queja o clasifica un documento, un modelo pequeño cuidadosamente elegido puede servir igual de bien que uno gigante —y además ser más barato, más rápido y más amable con el planeta. Al mostrar que el consumo de energía puede diferir en seis órdenes de magnitud para precisiones similares, y que medidas simples de tiempo pueden aproximar las necesidades energéticas, este estudio ofrece un kit práctico para decisiones de IA más conscientes con el clima en la administración y más allá.
Cita: Zschache, J., Hartwig, T. Comparing energy consumption and accuracy in text classification inference. Sci Rep 16, 12717 (2026). https://doi.org/10.1038/s41598-026-45023-0
Palabras clave: IA eficiente en energía, clasificación de texto, modelos de lenguaje grandes, informática sostenible, datos de la administración pública