När artificiella intelligenssystem går från chattbotar och kodhjälpare till vetenskapslaboratorier, klassrum och arbetsplatser blir det avgörande att veta vad de kan och vad de inte kan. Dagens AI-betyg består mestadels av enstaka provpoäng på snäva benchmarktester, vilket säger lite om varför ett system lyckas eller misslyckas — eller hur det kommer att bete sig vid en ny typ av problem. Denna artikel föreslår ett nytt sätt att mäta AI som strävar efter att vara lika systematiskt och beständigt som temperaturskalor är för väder, och som ger klarare insikter i AI:s styrkor, svagheter och framtida prestanda.
Från utspridda tester till delade skalor
De flesta nuvarande AI-utvärderingar liknar skolprov som tagits fram en i taget: varje benchmark blandar ihop många färdigheter och svårigheter, och slutbetyget blir en enda procentsats. Den procentsatsen beror lika mycket på testets egenheter som på AI:ns förmågor. Författarna menar att detta gör det omöjligt att förutsäga prestanda på nya uppgifter och leder till förvirring — till exempel när ett mattetest säger att en modell ”resonerar bra” och ett annat antyder motsatsen. Istället för att bara genomsnittsbetygsätta föreslår de att beskriva varje uppgift i termer av hur mycket den kräver på en uppsättning allmänna, människoförståeliga skalor.
Bygga en gemensam måttstock för AI-förmågor
För att skapa denna gemensamma måttstock designade teamet 18 kravskalor som täcker breda mentala färdigheter och kunskapsområden. Dessa inkluderar förmågor som att förstå språk, följa resonemangskedjor, reflektera över egen kunskap och att känna till fakta från natur-, samhälls-, tillämpade och formella vetenskaper. De mäter också ”extrinsiska” krav som kan göra problem svårare eller enklare utan att ändra den underliggande färdigheten, såsom hur ovanlig en fråga är, hur mycket information den staplar på sig eller om den är flervalsbaserad. Varje skala löper från noll krav till ökande svårighetsnivåer, ungefärlig så att en högre nivå innebär att allt färre människor — eller AI:er — bör kunna lösa uppgiften.
Lära maskiner att märka vad uppgifter egentligen kräver Figure 1.
Att manuellt poängsätta tusentals frågor längs 18 skalor vore omöjligt för expertpaneler ensamma, så författarna använder avancerade språkmodeller själva som annotatorer. De skriver detaljerade rubricer med exempel för varje nivå på varje skala och ber sedan en modell (GPT‑4o) att tilldela kravnivåer till över 16 000 frågor hämtade från 20 moderna AI-benchmarks. Mänskliga experter kontrollerar ett urval och når stark överensstämmelse med modellens etiketter. När annoteringarna är klara kan varje benchmark visualiseras som en ”kravsprofil” som visar hur mycket den verkligen övar varje förmåga. Detta avslöjar att många upphöjda tester inte mäter det deras skapare avsåg: vissa påstår sig fokusera på resonemang men hänger i själva verket på obskyr faktakunskap, andra är hopklustrade på en enda svårighetsnivå, och nästan inga är både känsliga (täcker ett bra spann av nivåer) och specifika (undviker oavsiktliga färdigheter).
Läsa AI-förmågekurvor istället för råpoäng
När samma skalor används på uppgifter är nästa steg att se hur olika AI-system hanterar ökande krav längs varje dimension. Författarna testar 15 stora språkmodeller från tre stora familjer och ser, för varje skala, sannolikheten för framgång när uppgifterna blir svårare. Genom att passa släta kurvor genom dessa punkter erhålls en ”förmågenivå” för varje modell på varje skala: den kravnivå där den lyckas ungefär hälften av gångerna när övriga krav inte är högre. Till skillnad från rå korrekthet beror inte dessa förmågescorer på det specifika samspelet av lätta och svåra uppgifter i en benchmark. De resulterande profilerna visar tydliga mönster: större modeller förbättrar sig främst i faktakunskap, medan specialiserade ”resonemangsmodeller” vinner mer i numeriskt och logiskt tänkande, i att identifiera relevant information och till och med i att modellera andra sinnen och sociala situationer. Kurvorna avslöjar även avtagande avkastning: att helt enkelt lägga till fler parametrar ger till slut endast måttliga förmågeökningar.
Använda kravprofiler för att förutsäga och kontrollera AI-beteende Figure 2.
Eftersom både uppgifter och system nu lever på samma uppsättning skalor kan författarna behandla utvärdering som ett prediktionsproblem. De tränar enkla maskininlärnings"assessors" som tar endast de 18 kravnivåerna för en fråga som indata och returnerar sannolikheten att en viss AI svarar korrekt. Dessa assessors förutsäger framgång mycket exakt, inte bara på bekanta uppgifter utan även på helt nya sådana och på benchmarks som hållits utanför träningen. De överträffar mycket tyngre black‑box-metoder som förlitar sig på textinbäddningar eller finjustering av stora modeller direkt. Detta möjliggör praktiska användningar såsom att dirigera varje inkommande fråga till den modell som mest sannolikt hanterar den säkert, eller att avvisa frågor som faller utanför någon modells pålitliga zon innan skada uppstår.
Ett steg mot en vetenskap för AI-utvärdering
Författarna drar slutsatsen att generella krav- och förmågeskalor kan förändra hur vi bedömer och använder AI. Istället för att jaga allt större, kortlivade benchmarktester och ogenomskinliga aggregerade poäng kan vi bygga ett stabilt, utbyggbart mätsystem som förklarar varför system misslyckas, jämför dem rättvist över domäner och förutser deras beteende på nya uppgifter. Ungefär som standardiserade enheter i fysiken möjliggjorde precis ingenjörskonst, kan en delad, välutformad uppsättning kognitiva skalor ligga till grund för säkrare och mer förutsägbar användning av AI under de kommande åren.
Citering: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power.
Nature652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2
Nyckelord: AI-utvärdering, benchmarking, stora språkmodeller, prediktiv bedömning, AI-säkerhet