A medida que los sistemas de inteligencia artificial pasan de chatbots y asistentes de programación a laboratorios científicos, aulas y entornos laborales, se vuelve crucial saber qué pueden y qué no pueden hacer. Los boletines de hoy para la IA son en su mayoría puntajes únicos en benchmarks estrechos, que dicen poco sobre por qué un sistema tiene éxito o fracasa, o sobre cómo se comportará ante un tipo nuevo de problema. Este artículo propone una nueva forma de medir la IA que aspira a ser tan sistemática y duradera como las escalas de temperatura para el tiempo, ofreciéndonos una visión más clara de las fortalezas, debilidades y rendimiento futuro de la IA.
De pruebas dispersas a escalas compartidas
La mayoría de las evaluaciones actuales de IA se parecen a exámenes escolares diseñados uno por uno: cada benchmark mezcla muchas habilidades y dificultades, y la nota final es un único porcentaje. Ese porcentaje depende tanto de las rarezas del test como de las capacidades de la IA. Los autores sostienen que esto hace imposible predecir el rendimiento en tareas nuevas y genera confusión —por ejemplo, cuando un benchmark de matemáticas dice que un modelo "razona bien" y otro sugiere lo contrario. En lugar de promediar solo las puntuaciones, proponen describir cada tarea en términos de cuánto exige a lo largo de un conjunto de escalas generales y comprensibles para las personas.
Construyendo una regla común para las habilidades de la IA
Para crear esta regla común, el equipo diseñó 18 escalas de demanda que cubren amplias habilidades mentales y áreas de conocimiento. Estas incluyen capacidades como comprender el lenguaje, seguir cadenas de razonamiento, reflexionar sobre el propio conocimiento y conocer hechos de las ciencias naturales, sociales, aplicadas y formales. También registran demandas “extrínsecas” que pueden hacer que los problemas sean más fáciles o más difíciles sin cambiar la habilidad subyacente, como cuán inusual es una pregunta, cuánto información añade o si es de respuesta múltiple. Cada escala va desde demanda cero hasta niveles cada vez más exigentes, alineados aproximadamente de modo que subir de nivel significa que muchas menos personas —o IAs— deberían poder resolver el ítem.
Enseñar a las máquinas a etiquetar lo que realmente piden las tareas Figure 1.
Anotar manualmente miles de preguntas a lo largo de 18 escalas sería imposible solo con paneles de expertos, por lo que los autores usan a los propios modelos de lenguaje avanzados como anotadores. Escriben rúbricas detalladas con ejemplos para cada nivel de cada escala y luego piden a un modelo (GPT‑4o) que asigne niveles de demanda a más de 16.000 preguntas extraídas de 20 benchmarks modernos de IA. Expertos humanos revisan un subconjunto y alcanzan un alto grado de concordancia con las etiquetas del modelo. Una vez anotado, cada benchmark puede visualizarse como un “perfil de demanda” que muestra cuánto ejerce realmente cada habilidad. Esto revela que muchas pruebas celebradas no miden lo que sus diseñadores pensaban: algunas afirman centrarse en el razonamiento pero en realidad dependen de conocimientos fácticos oscuros; otras se agrupan en un único nivel de dificultad; y casi ninguna es a la vez sensible (cubre una buena gama de niveles) y específica (evita habilidades no deseadas).
Leer curvas de habilidad de la IA en lugar de puntuaciones brutas
Con las mismas escalas aplicadas a las tareas, el siguiente paso es ver cómo distintos sistemas de IA afrontan demandas crecientes en cada dimensión. Los autores evalúan 15 modelos de lenguaje grande de tres familias principales y observan, para cada escala, la probabilidad de éxito a medida que las tareas se vuelven más difíciles. Ajustar curvas suaves a través de esos puntos produce un “nivel de habilidad” para cada modelo en cada escala: el nivel de demanda en el que tiene éxito aproximadamente la mitad de las veces cuando otras demandas no son mayores. A diferencia de la precisión bruta, estas puntuaciones de habilidad no dependen de la mezcla particular de ítems fáciles y difíciles en un benchmark. Los perfiles resultantes muestran patrones claros: los modelos más grandes mejoran principalmente en conocimiento factual, mientras que los modelos especiales de “razonamiento” ganan más en pensamiento numérico y lógico, en identificar información relevante e incluso en modelar otras mentes y situaciones sociales. Las curvas también revelan rendimientos decrecientes: añadir simplemente más parámetros acaba produciendo solo ganancias de habilidad modestísimas.
Usar perfiles de demanda para predecir y controlar el comportamiento de la IA Figure 2.
Puesto que tanto las tareas como los sistemas ahora viven en el mismo conjunto de escalas, los autores pueden tratar la evaluación como un problema de predicción. Entrenan “evaluadores” de aprendizaje automático simples que toman únicamente los 18 niveles de demanda de una pregunta como entrada y devuelven la probabilidad de que una IA concreta responda correctamente. Estos evaluadores predicen el éxito con gran precisión, no solo en tareas familiares sino también en otras totalmente nuevas y en benchmarks excluidos del entrenamiento. Superan a enfoques de caja negra mucho más costosos que dependen de incrustaciones de texto o de ajuste fino directo de modelos grandes. Esto posibilita usos prácticos como encaminar cada consulta entrante al modelo con mayor probabilidad de manejarla de forma segura, o rechazar consultas que queden fuera de la zona fiable de cualquier modelo antes de que se cause daño.
Un paso hacia una ciencia de la evaluación de la IA
Los autores concluyen que las escalas generales de demanda y habilidad pueden transformar la forma en que juzgamos y desplegamos la IA. En lugar de perseguir benchmarks cada vez mayores, efímeros y puntuaciones agregadas opacas, podemos construir un marco de medición estable y extensible que explique por qué los sistemas fallan, los compare con justicia entre dominios y anticipe su comportamiento en tareas nuevas. Al igual que las unidades estandarizadas en física permitieron una ingeniería precisa, un conjunto compartido y bien diseñado de escalas cognitivas podría sustentar un uso de la IA más seguro y predecible en los próximos años.
Cita: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power.
Nature652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2
Palabras clave: evaluación de IA, benchmarking, modelos de lenguaje grande, evaluación predictiva, seguridad en IA