Waarom we betere rapportcijfers voor AI nodig hebben
Naarmate kunstmatige intelligentiesystemen van chatbots en programmeerhulpen naar laboratoria, klaslokalen en werkplekken verschuiven, wordt het cruciaal te weten wat ze wel en niet kunnen. De huidige AI-rapportcijfers zijn meestal enkele testscores op smalle benchmarks, die weinig zeggen over waarom een systeem slaagt of faalt — of hoe het zich zal gedragen bij een nieuw soort probleem. Dit artikel stelt een nieuwe manier voor om AI te meten die zo systematisch en duurzaam wil zijn als temperatuurschalen voor het weer, en ons duidelijker inzicht geeft in AI-sterktes, zwaktes en toekomstige prestaties.
Van verspreide tests naar gedeelde schalen
De meeste huidige AI-evaluaties lijken op schoolexamens die telkens afzonderlijk zijn ontworpen: elke benchmark mengt veel vaardigheden en moeilijkheden door elkaar, en het eindcijfer is één percentage. Dat percentage hangt net zoveel af van de eigenaardigheden van de test als van de capaciteiten van de AI. De auteurs beargumenteren dat dit voorspellen van prestatie op nieuwe taken onmogelijk maakt en verwarring zaait — bijvoorbeeld wanneer de ene wiskundebenchmark zegt dat een model "goed redeneert" en een andere het tegendeel suggereert. In plaats van alleen scores te middelen, stellen ze voor elke taak te beschrijven in termen van hoeveel het vraagt langs een set algemene, voor mensen begrijpelijke schalen.
Een gemeenschappelijke lat voor AI-mogelijkheden bouwen
Om deze gemeenschappelijke lat te creëren, ontwierp het team 18 vraagschalen die brede mentale vaardigheden en kennisgebieden omvatten. Dit omvat vermogens zoals taalbegrip, het volgen van redeneerketens, reflectie op eigen kennis en het kennen van feiten uit natuurlijke, sociale, toegepaste en formele wetenschappen. Ze volgen ook "extrinsieke" eisen die problemen moeilijker of gemakkelijker kunnen maken zonder de onderliggende vaardigheid te veranderen, zoals hoe ongebruikelijk een vraag is, hoeveel informatie erin wordt gestopt, of het meerkeuze betreft. Elke schaal loopt van nul vraag tot steeds uitdagendere niveaus, globaal zo afgesteld dat een hogere stap betekent dat veel minder mensen — of AIs — het item zouden moeten kunnen oplossen.
Machines leren labelen wat taken werkelijk vragen Figure 1.
Handmatig duizenden vragen scoren langs 18 schalen zou voor panels van experts alleen onmogelijk zijn, dus gebruiken de auteurs geavanceerde taalmodellen zelf als annotatoren. Ze schrijven gedetailleerde rubrieken met voorbeelden voor elk niveau van elke schaal en vragen vervolgens een model (GPT‑4o) om vraagniveaus toe te wijzen aan meer dan 16.000 vragen afkomstig van 20 moderne AI-benchmarks. Menselijke experts controleren een subset en bereiken sterke overeenstemming met de labels van het model. Eenmaal geannoteerd kan elke benchmark worden gevisualiseerd als een "vraagprofiel" dat laat zien hoeveel het werkelijk elke vaardigheid aanspreekt. Dit onthult dat veel gevierde tests niet meten wat hun ontwerpers beoogden: sommige beweren zich op redeneren te richten maar hangen in werkelijkheid af van obscure feitelijke kennis, andere concentreren zich op één moeilijkheidsniveau, en bijna geen enkele is zowel sensitief (dekking over een goed spanningsveld van niveaus) als specifiek (het vermijden van onbedoelde vaardigheden).
AI-vaardigheidscurven lezen in plaats van ruwe scores
Met dezelfde schalen toegepast op taken, is de volgende stap te bekijken hoe verschillende AI-systemen omgaan met toenemende eisen langs elke dimensie. De auteurs testen 15 grote taalmodellen uit drie belangrijke families en bekijken, voor elke schaal, de kans op succes naarmate taken moeilijker worden. Door gladde krommen door deze punten te passen ontstaat een "vaardigheidsniveau" voor elk model op elke schaal: het vraagniveau waarbij het ongeveer de helft van de tijd slaagt wanneer andere eisen niet hoger zijn. In tegenstelling tot ruwe nauwkeurigheid hangen deze vaardigheidsscores niet af van de specifieke mix van makkelijke en moeilijke items in een benchmark. De resulterende profielen tonen duidelijke patronen: grotere modellen verbeteren voornamelijk de feitelijke kennis, terwijl speciale "redeneer"-modellen sterker winnen in numeriek en logisch denken, in het herkennen van relevante informatie en zelfs in het modelleren van andere geesten en sociale situaties. De curven laten ook afnemende meeropbrengst zien: simpelweg meer parameters toevoegen levert uiteindelijk slechts bescheiden vaardigheidswinst op.
Vraagprofielen gebruiken om AI-gedrag te voorspellen en te beheersen Figure 2.
Aangezien zowel taken als systemen nu op dezelfde set schalen leven, kunnen de auteurs evaluatie als een voorspellingsprobleem behandelen. Ze trainen eenvoudige machine-learning "assessors" die alleen de 18 vraagniveaus voor een vraag als invoer nemen en de waarschijnlijkheid outputten dat een bepaald AI-model correct zal antwoorden. Deze assessors voorspellen succes zeer nauwkeurig, niet alleen op vertrouwde taken maar ook op volledig nieuwe en op benchmarks die buiten de training zijn gelaten. Ze presteren beter dan veel zwaardere black-boxbenaderingen die steunen op tekstembeddings of het direct fijn afstemmen van grote modellen. Dit maakt praktische toepassingen mogelijk zoals het routeren van binnenkomende queries naar het model dat ze het waarschijnlijkst veilig kan afhandelen, of het afwijzen van queries die buiten de betrouwbare zone van elk model vallen voordat er schade wordt aangericht.
Een stap richting een wetenschap van AI-evaluatie
De auteurs concluderen dat algemene vraag- en vaardigheidsschalen kunnen transformeren hoe we AI beoordelen en inzetten. In plaats van te jagen op steeds grotere, kortstondige benchmarks en ondoorzichtige geaggregeerde scores, kunnen we een stabiel, uitbreidbaar meetkader bouwen dat verklaart waarom systemen falen, ze eerlijk vergelijkt over domeinen heen en hun gedrag op nieuwe taken anticipeert. Net zoals gestandaardiseerde eenheden in de natuurkunde precies bouwen mogelijk maakten, zou een gedeelde, goed ontworpen set cognitieve schalen een fundament kunnen vormen voor veiliger en beter voorspelbaar gebruik van AI in de komende jaren.
Bronvermelding: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power.
Nature652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2
Trefwoorden: AI-evaluatie, benchmarking, grote taalmodellen, voorspellende beoordeling, AI-veiligheid