Pourquoi nous avons besoin de meilleurs bulletins pour l’IA
À mesure que les systèmes d’intelligence artificielle passent des chatbots et assistants de codage aux laboratoires scientifiques, salles de classe et lieux de travail, il devient crucial de savoir ce qu’ils savent faire — et ce qu’ils ne savent pas faire. Les bulletins actuels pour l’IA sont surtout des notes uniques sur des benchmarks étroits, qui disent peu sur les raisons d’un succès ou d’un échec — ni sur la façon dont un système se comportera face à un nouveau type de problème. Cet article propose une nouvelle manière de mesurer l’IA, visant à être aussi systématique et durable que les échelles de température pour la météo, et à donner une vision plus claire des forces, faiblesses et performances futures de l’IA.
Des tests épars à des échelles partagées
La plupart des évaluations actuelles de l’IA ressemblent à des examens scolaires conçus au cas par cas : chaque benchmark mélange de nombreuses compétences et difficultés, et la note finale est un pourcentage unique. Ce pourcentage dépend autant des particularités du test que des capacités du système. Les auteurs soutiennent que cela rend impossible la prévision des performances sur de nouvelles tâches et génère de la confusion — par exemple lorsqu’un benchmark de mathématiques dit qu’un modèle « raisonne bien » et qu’un autre suggère le contraire. Plutôt que de se contenter de moyenniser les scores, ils proposent de décrire chaque tâche selon la quantité de demande qu’elle impose le long d’un ensemble d’échelles générales et compréhensibles par des humains.
Construire une règle commune pour les capacités de l’IA
Pour créer cette règle commune, l’équipe a conçu 18 échelles de demande couvrant de larges compétences mentales et domaines de connaissance. Celles‑ci incluent des capacités comme la compréhension du langage, le suivi d’enchaînements de raisonnement, la réflexion sur sa propre connaissance, et la connaissance de faits issus des sciences naturelles, sociales, appliquées et formelles. Ils suivent aussi des demandes « accessoires » qui peuvent rendre les problèmes plus faciles ou plus difficiles sans changer la compétence sous‑jacente, comme l’étrangeté d’une question, la quantité d’informations présentées, ou le format QCM. Chaque échelle va d’une demande nulle à des niveaux de difficulté croissants, alignés de façon approximative pour que monter d’un niveau signifie que beaucoup moins de personnes — ou d’IA — devraient être capables de résoudre l’item.
Apprendre aux machines à étiqueter ce que demandent réellement les tâches Figure 1.
Noter manuellement des milliers de questions selon 18 échelles serait impossible pour des panels d’experts seuls, aussi les auteurs utilisent‑ils des modèles de langage avancés comme annotateurs. Ils rédigent des grilles détaillées avec des exemples pour chaque niveau de chaque échelle, puis demandent à un modèle (GPT‑4o) d’assigner des niveaux de demande à plus de 16 000 questions issues de 20 benchmarks modernes. Des experts humains vérifient un sous‑ensemble et obtiennent une forte concordance avec les étiquettes du modèle. Une fois annoté, chaque benchmark peut être visualisé comme un « profil de demande » montrant dans quelle mesure il exerce réellement chaque capacité. Cela révèle que de nombreux tests célébrés ne mesurent pas ce que leurs concepteurs pensaient : certains prétendent évaluer le raisonnement alors qu’ils reposent sur des connaissances factuelles obscures, d’autres se concentrent à un seul niveau de difficulté, et presque aucun n’est à la fois sensible (couvrant une bonne répartition des niveaux) et spécifique (éviter des compétences non voulues).
Lire des courbes de capacité de l’IA plutôt que des scores bruts
Avec les mêmes échelles appliquées aux tâches, l’étape suivante consiste à observer comment différents systèmes d’IA gèrent l’augmentation des demandes le long de chaque dimension. Les auteurs testent 15 grands modèles de langage de trois grandes familles et examinent, pour chaque échelle, la probabilité de succès à mesure que les tâches deviennent plus difficiles. Ajuster des courbes lisses sur ces points fournit un « niveau de capacité » pour chaque modèle sur chaque échelle : le niveau de demande auquel il réussit environ la moitié du temps lorsque les autres demandes ne sont pas plus élevées. Contrairement à l’exactitude brute, ces scores de capacité ne dépendent pas du mélange particulier d’items faciles et difficiles dans un benchmark. Les profils résultants montrent des tendances claires : les modèles plus grands améliorent principalement les connaissances factuelles, tandis que des modèles spécialisés en « raisonnement » gagnent davantage en calcul numérique et logique, en identification d’informations pertinentes, et même en modélisation d’esprits et de situations sociales. Les courbes montrent aussi des rendements décroissants : augmenter le nombre de paramètres finit par n’apporter que des gains de capacité modestes.
Utiliser les profils de demande pour prédire et contrôler le comportement des IA Figure 2.
Parce que tâches et systèmes vivent désormais sur le même ensemble d’échelles, les auteurs peuvent traiter l’évaluation comme un problème de prédiction. Ils entraînent de simples « évaluateurs » d’apprentissage automatique qui prennent en entrée seulement les 18 niveaux de demande d’une question et renvoient la probabilité qu’une IA donnée réponde correctement. Ces évaluateurs prédisent le succès de façon très précise, non seulement sur des tâches familières mais aussi sur des tâches entièrement nouvelles et sur des benchmarks exclus du jeu d’entraînement. Ils surpassent des approches boîte noire beaucoup plus lourdes qui reposent sur des embeddings texte ou le fine‑tuning direct de grands modèles. Cela permet des usages pratiques, comme router chaque requête entrante vers le modèle le plus susceptible de la traiter en toute sécurité, ou rejeter des requêtes qui tombent en dehors de la zone fiable de tout modèle avant qu’un dommage ne se produise.
Un pas vers une science de l’évaluation de l’IA
Les auteurs concluent que des échelles générales de demande et de capacité peuvent transformer notre façon de juger et de déployer l’IA. Plutôt que de courir après des benchmarks toujours plus gros, éphémères et des scores agrégés opaques, nous pouvons construire un cadre de mesure stable et extensible qui explique les raisons des échecs, compare équitablement les systèmes entre domaines et anticipe leur comportement sur de nouvelles tâches. À l’instar des unités standardisées en physique qui ont rendu l’ingénierie précise possible, un ensemble partagé et bien conçu d’échelles cognitives pourrait soutenir une utilisation de l’IA plus sûre et plus prévisible dans les années à venir.
Citation: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power.
Nature652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2
Mots-clés: évaluation de l’IA, benchmarks, grands modèles de langage, évaluation prédictive, sécurité de l’IA