À medida que os sistemas de inteligência artificial evoluem de chatbots e assistentes de programação para laboratórios científicos, salas de aula e locais de trabalho, torna‑se crucial saber o que eles podem e o que não podem fazer. Os boletins de IA atuais são, em grande parte, pontuações únicas em benchmarks estreitos, que dizem pouco sobre por que um sistema tem sucesso ou falha — ou como ele se comportará diante de um novo tipo de problema. Este artigo propõe uma nova forma de medir a IA que busca ser tão sistemática e durável quanto escalas de temperatura para o clima, oferecendo uma visão mais clara das forças, fraquezas e desempenho futuro da IA.
De testes dispersos para escalas compartilhadas
A maioria das avaliações atuais de IA se assemelha a exames escolares projetados um a um: cada benchmark mistura muitas habilidades e dificuldades, e a nota final é uma única porcentagem. Essa porcentagem depende tanto das particularidades do teste quanto das habilidades da IA. Os autores argumentam que isso torna impossível prever o desempenho em novas tarefas e gera confusão — por exemplo, quando um benchmark de matemática diz que um modelo “raciocina bem” e outro sugere o oposto. Em vez de apenas tirar médias de pontuação, eles propõem descrever cada tarefa em termos de quanto ela exige ao longo de um conjunto de escalas gerais e compreensíveis por humanos.
Construindo uma régua comum para habilidades de IA
Para criar essa régua comum, a equipe projetou 18 escalas de demanda que cobrem amplas habilidades mentais e áreas de conhecimento. Isso inclui habilidades como entender linguagem, seguir cadeias de raciocínio, refletir sobre o próprio conhecimento e conhecer fatos das ciências naturais, sociais, aplicadas e formais. Eles também monitoram demandas “extrínsecas” que podem tornar problemas mais fáceis ou difíceis sem alterar a habilidade subjacente, como quão incomum é uma pergunta, quanta informação ela acumula ou se é de múltipla escolha. Cada escala vai de demanda zero a níveis progressivamente desafiadores, aproximadamente alinhados de modo que subir um nível signifique que bem menos pessoas — ou IAs — deveriam ser capazes de resolver o item.
Ensinando máquinas a rotular o que as tarefas realmente exigem Figure 1.
Pontuar manualmente milhares de perguntas ao longo de 18 escalas seria impossível só com painéis de especialistas, então os autores usam modelos de linguagem avançados como anotadores. Eles escrevem rubricas detalhadas com exemplos para cada nível de cada escala e então pedem a um modelo (GPT‑4o) que atribua níveis de demanda a mais de 16.000 perguntas retiradas de 20 benchmarks modernos de IA. Peritos humanos verificam um subconjunto e alcançam forte concordância com os rótulos do modelo. Uma vez anotado, cada benchmark pode ser visualizado como um “perfil de demanda” que mostra o quanto ele realmente exige de cada habilidade. Isso revela que muitos testes celebrados não medem o que seus criadores pretendiam: alguns afirmam focar em raciocínio, mas na verdade dependem de conhecimento factual obscuro; outros se concentram em um único nível de dificuldade; e quase nenhum é ao mesmo tempo sensível (cobrindo uma boa variação de níveis) e específico (evitando habilidades não intencionais).
Lendo curvas de habilidade de IA em vez de pontuações brutas
Com as mesmas escalas usadas nas tarefas, o próximo passo é ver como diferentes sistemas de IA lidam com o aumento das demandas em cada dimensão. Os autores testam 15 grandes modelos de linguagem de três famílias principais e observam, para cada escala, a probabilidade de sucesso conforme as tarefas ficam mais difíceis. Ajustar curvas suaves por esses pontos produz um “nível de habilidade” para cada modelo em cada escala: o nível de demanda no qual ele tem sucesso cerca de metade das vezes quando outras demandas não são maiores. Ao contrário da acurácia bruta, essas pontuações de habilidade não dependem da mistura particular de itens fáceis e difíceis em um benchmark. Os perfis resultantes mostram padrões claros: modelos maiores melhoram principalmente o conhecimento factual, enquanto modelos especiais de “raciocínio” ganham mais em pensamento numérico e lógico, em identificar informações relevantes e até em modelar outras mentes e situações sociais. As curvas também revelam retornos decrescentes: simplesmente adicionar mais parâmetros acaba produzindo apenas ganhos modestos de habilidade.
Usando perfis de demanda para prever e controlar o comportamento da IA Figure 2.
Porque tarefas e sistemas agora residem no mesmo conjunto de escalas, os autores podem tratar a avaliação como um problema de predição. Eles treinam “avaliadores” simples de aprendizado de máquina que recebem apenas os 18 níveis de demanda de uma pergunta como entrada e devolvem a probabilidade de que uma IA particular responda corretamente. Esses avaliadores predizem o sucesso com muita precisão, não apenas em tarefas familiares, mas também em tarefas inteiramente novas e em benchmarks omitidos do treinamento. Eles superam abordagens de caixa‑preta muito mais pesadas que dependem de embeddings de texto ou de ajuste fino direto de grandes modelos. Isso possibilita usos práticos, como direcionar cada consulta recebida ao modelo mais provável de tratá‑la com segurança, ou rejeitar consultas que estejam fora da zona confiável de qualquer modelo antes que dano seja causado.
Um passo rumo a uma ciência da avaliação de IA
Os autores concluem que escalas gerais de demanda e habilidade podem transformar a forma como julgamos e implantamos IA. Em vez de perseguir benchmarks cada vez maiores, efêmeros e pontuações agregadas opacas, podemos construir uma estrutura de medição estável e extensível que explique por que sistemas falham, compare‑os de modo justo entre domínios e antecipe seu comportamento em novas tarefas. Assim como unidades padronizadas na física tornaram possível a engenharia precisa, um conjunto compartilhado e bem projetado de escalas cognitivas poderia fundamentar um uso mais seguro e previsível da IA nos anos vindouros.
Citação: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power.
Nature652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2
Palavras-chave: avaliação de IA, benchmarking, grandes modelos de linguagem, avaliação preditiva, segurança em IA