W miarę jak systemy sztucznej inteligencji przechodzą od czatbotów i pomocników do pisania kodu do laboratoriów naukowych, sal lekcyjnych i miejsc pracy, staje się kluczowe wiedzieć, co potrafią, a czego nie. Dzisiejsze świadectwa dla SI to głównie pojedyncze wyniki z wąskich testów porównawczych, które niewiele mówią o tym, dlaczego system odnosi sukcesy lub ponosi porażki — ani o tym, jak zachowa się w obliczu nowego rodzaju problemu. W tym artykule proponuje się nowy sposób pomiaru SI, mający być tak systematyczny i trwały, jak skale temperatury w meteorologii, dający jaśniejsze rozeznanie w mocnych stronach, słabościach i przyszłej wydajności SI.
Od rozproszonych testów do wspólnej skali
Większość obecnych ocen SI przypomina szkolne egzaminy tworzone pojedynczo: każdy benchmark miesza wiele umiejętności i poziomów trudności, a końcowa ocena jest jednym procentem. Ten wynik zależy równie mocno od specyfiki testu, co od zdolności SI. Autorzy argumentują, że uniemożliwia to przewidywanie wydajności w nowych zadaniach i prowadzi do nieporozumień — na przykład gdy jeden test z matematyki twierdzi, że model „dobrze rozumuje”, a inny sugeruje coś przeciwnego. Zamiast jedynie uśredniać wyniki, proponują opisać każde zadanie pod kątem tego, ile żąda od strony zestawu ogólnych, zrozumiałych dla ludzi skal.
Budowanie wspólnej miary zdolności SI
Aby stworzyć tę wspólną miarę, zespół zaprojektował 18 skal zapotrzebowania obejmujących szerokie umiejętności umysłowe i obszary wiedzy. Należą do nich zdolności takie jak rozumienie języka, podążanie za ciągami rozumowań, refleksja nad własną wiedzą oraz znajomość faktów z nauk przyrodniczych, społecznych, stosowanych i formalnych. Śledzą też „zewnętrzne” wymagania, które mogą utrudniać lub ułatwiać rozwiązanie zadania bez zmiany podstawowej umiejętności — na przykład jak nietypowe jest pytanie, ile informacji narzuca, czy jest wielokrotnego wyboru. Każda skala przebiega od zerowego zapotrzebowania do coraz trudniejszych poziomów, w przybliżeniu tak wyrównanych, że przejście o poziom w górę oznacza, iż znacznie mniej osób — lub SI — powinno być w stanie rozwiązać dany element.
Nauczanie maszyn oznaczania, czego naprawdę wymagają zadania Figure 1.
Ręczne ocenienie tysięcy pytań według 18 skal byłoby niemożliwe wyłącznie przez panele ekspertów, dlatego autorzy wykorzystują zaawansowane modele językowe jako adnotatorów. Spisują szczegółowe rubryki z przykładami dla każdego poziomu każdej skali, a następnie proszą model (GPT‑4o) o przypisanie poziomów zapotrzebowania do ponad 16 000 pytań zaczerpniętych z 20 współczesnych benchmarków SI. Eksperci ludzki sprawdzają podzbiór i osiągają silną zgodność z etykietami modelu. Po adnotacji każdy benchmark można zwizualizować jako „profil zapotrzebowania”, pokazujący, w jakim stopniu rzeczywiście ćwiczy każdą umiejętność. Ukazuje to, że wiele chwalonych testów nie mierzy tego, co ich twórcy zamierzali: niektóre deklarują skupienie na rozumowaniu, a w praktyce opierają się na rzadkiej wiedzy faktograficznej; inne gromadzą się na jednym poziomie trudności; niemal żaden nie jest jednocześnie wrażliwy (obejmując dobry przekrój poziomów) i specyficzny (unikający niezamierzonych umiejętności).
Czytanie krzywych zdolności SI zamiast surowych wyników
Używając tych samych skal dla zadań, kolejnym krokiem jest sprawdzenie, jak różne systemy SI radzą sobie ze wzrastającymi wymaganiami w każdej osi. Autorzy testują 15 dużych modeli językowych z trzech głównych rodzin i analizują, dla każdej skali, prawdopodobieństwo sukcesu w miarę rosnącej trudności zadań. Dopasowując gładkie krzywe przez te punkty, otrzymują „poziom zdolności” dla każdego modelu na każdej skali: poziom zapotrzebowania, przy którym model osiąga sukces około połowy czasu, gdy inne wymagania nie są wyższe. W przeciwieństwie do surowej dokładności, te wyniki zdolności nie zależą od konkretnego zestawu łatwych i trudnych elementów w benchmarku. Powstałe profile pokazują wyraźne wzorce: większe modele głównie poprawiają wiedzę faktograficzną, podczas gdy specjalne modele „rozumujące” zyskują więcej w myśleniu numerycznym i logicznym, identyfikowaniu istotnych informacji, a nawet modelowaniu umysłów innych i sytuacji społecznych. Krzywe ujawniają też malejące korzyści: samo zwiększanie parametrów w końcu przynosi jedynie umiarkowane wzrosty zdolności.
Wykorzystanie profili zapotrzebowania do prognozowania i kontroli zachowań SI Figure 2.
Ponieważ zarówno zadania, jak i systemy znajdują się teraz na tych samych skalach, autorzy traktują ocenę jak problem predykcji. Trenują proste „oceniacze” uczenia maszynowego, które jako wejście przyjmują tylko 18 poziomów zapotrzebowania dla pytania i zwracają prawdopodobieństwo, że konkretny model SI odpowie poprawnie. Te oceniacze bardzo trafnie przewidują sukces, nie tylko w odniesieniu do znanych zadań, ale także całkowicie nowych oraz benchmarków pominiętych przy treningu. Przewyższają znacznie cięższe, black‑boxowe podejścia oparte na osadzeniach tekstu lub bezpośrednim dostrajaniu dużych modeli. Pozwala to na praktyczne zastosowania, takie jak kierowanie nadchodzącego zapytania do modelu, który najprawdopodobniej poradzi sobie z nim bezpiecznie, albo odrzucanie zapytań, które znajdują się poza strefą niezawodności jakiegokolwiek modelu, zanim wyrządzą szkody.
Krok w stronę nauki oceny SI
Autorzy konkludują, że ogólne skale zapotrzebowania i zdolności mogą przekształcić sposób, w jaki oceniamy i wdrażamy SI. Zamiast gonić za coraz większymi, krótkotrwałymi benchmarkami i nieprzejrzystymi zbiorczymi wynikami, możemy zbudować stabilne, rozszerzalne ramy pomiarowe, które wyjaśniają, dlaczego systemy zawodzą, porównują je uczciwie w różnych dziedzinach i przewidują ich zachowanie w nowych zadaniach. Podobnie jak ustandaryzowane jednostki w fizyce umożliwiły precyzyjne inżynierowanie, wspólny, dobrze zaprojektowany zestaw skal poznawczych mógłby stanowić podstawę bezpieczniejszego i bardziej przewidywalnego wykorzystania SI w nadchodzących latach.
Cytowanie: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power.
Nature652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2
Słowa kluczowe: ocena SI, benchmarking, duże modele językowe, ocena predykcyjna, bezpieczeństwo SI