Clear Sky Science · de

Allgemeine Skalen eröffnen der KI-Bewertung erklärende und prognostische Kräfte

· Zurück zur Übersicht

Warum wir bessere Zeugnisse für KI brauchen

Da sich künstliche Intelligenz-Systeme von Chatbots und Programmierhilfen hin zu Forschungslaboren, Klassenzimmern und Arbeitsplätzen bewegen, wird es entscheidend zu wissen, was sie können und was nicht. Die heutigen KI‑Zeugnisse sind meist einzelne Testergebnisse auf engen Benchmarks, die wenig darüber aussagen, warum ein System Erfolg oder Misserfolg hat — oder wie es sich bei einer neuen Art von Aufgabe verhalten wird. Dieses Papier schlägt eine neue Messmethode vor, die so systematisch und dauerhaft sein soll wie Temperaturskalen für das Wetter und uns klarere Einblicke in Stärken, Schwächen und künftige Leistung von KI liefert.

Von verstreuten Tests zu gemeinsamen Skalen

Viele aktuelle KI‑Evaluierungen ähneln Schulprüfungen, die einzeln entworfen wurden: Jeder Benchmark mischt viele Fähigkeiten und Schwierigkeitsgrade, und die Endnote ist ein einzelner Prozentsatz. Dieser Prozentsatz hängt genauso sehr von den Eigenheiten des Tests wie von den Fähigkeiten der KI ab. Die Autoren argumentieren, dass das vorhersagbare Leistungen auf neue Aufgaben unmöglich macht und zu Verwirrung führt — zum Beispiel, wenn ein Mathe‑Benchmark sagt, ein Modell „schließe gut“, und ein anderer das Gegenteil nahelegt. Anstatt nur Mittelwerte von Punktzahlen zu bilden, schlagen sie vor, jede Aufgabe in Bezug darauf zu beschreiben, wie sehr sie entlang einer Reihe allgemeiner, für Menschen verständlicher Skalen fordert.

Ein gemeinsames Messinstrument für KI‑Fähigkeiten aufbauen

Um dieses gemeinsame Messinstrument zu schaffen, entwarf das Team 18 Bedarfsskalen, die breite mentale Fähigkeiten und Wissensgebiete abdecken. Dazu gehören Fähigkeiten wie Sprachverständnis, das Folgen von Gedankengängen, Selbstreflexion über das eigene Wissen sowie Faktenkenntnis aus Natur-, Sozial-, Anwendungs‑ und Formalwissenschaften. Sie erfassen außerdem „äußere“ Anforderungen, die Aufgaben leichter oder schwerer machen können, ohne die zugrunde liegende Fähigkeit zu verändern — etwa wie ungewöhnlich eine Frage ist, wie viel Information sie bündelt oder ob sie Multiple‑Choice ist. Jede Skala reicht von null Anforderungen bis hin zu zunehmend herausfordernden Stufen, grob so ausgerichtet, dass ein Anstieg um eine Stufe bedeutet, dass deutlich weniger Menschen — oder KIs — das Item lösen sollten.

Maschinen beibringen, zu kennzeichnen, was Aufgaben wirklich verlangen
Figure 1
Abbildung 1.

Das manuelle Bewerten von Tausenden Fragen entlang von 18 Skalen wäre für Expertengremien allein unmöglich, deshalb verwenden die Autoren fortgeschrittene Sprachmodelle selbst als Annotatoren. Sie schreiben detaillierte Rubriken mit Beispielen für jede Stufe jeder Skala und lassen dann ein Modell (GPT‑4o) die Anforderungsniveaus für über 16.000 Fragen aus 20 modernen KI‑Benchmarks zuweisen. Menschliche Expertinnen und Experten prüfen eine Teilmenge und erzielen starke Übereinstimmung mit den Modellkennzeichnungen. Sobald annotiert, lässt sich jeder Benchmark als „Anforderungsprofil“ visualisieren, das zeigt, wie sehr er tatsächlich jede Fähigkeit beansprucht. Das enthüllt, dass viele gefeierte Tests nicht messen, was ihre Entwerfer beabsichtigten: Manche behaupten, sich auf Schlussfolgern zu konzentrieren, beruhen aber tatsächlich auf obskurem Faktwissen; andere bündeln sich auf einer einzigen Schwierigkeitsstufe; und fast keiner ist sowohl sensibel (gedeckt ist eine gute Bandbreite an Stufen) als auch spezifisch (vermeidet unbeabsichtigte Fähigkeiten).

KI‑Fähigkeitskurven lesen statt Rohwerte

Mit denselben Skalen, die auf Aufgaben angewendet werden, besteht der nächste Schritt darin zu sehen, wie verschiedene KI‑Systeme mit zunehmenden Anforderungen entlang jeder Dimension umgehen. Die Autoren testen 15 große Sprachmodelle aus drei großen Familien und betrachten für jede Skala die Erfolgschance, wenn Aufgaben schwieriger werden. Durch glattes Anpassen von Kurven an diese Punkte entsteht für jedes Modell auf jeder Skala ein „Fähigkeitsniveau“: das Anforderungsniveau, bei dem es etwa die Hälfte der Fälle löst, wenn andere Anforderungen nicht höher sind. Im Gegensatz zur rohen Genauigkeit hängen diese Fähigkeitswerte nicht von der speziellen Mischung einfacher und schwerer Items in einem Benchmark ab. Die daraus resultierenden Profile zeigen klare Muster: Größere Modelle verbessern vor allem faktisches Wissen, während spezielle „Schlussfolgerungs‑“Modelle mehr Zuwächse in numerischem und logischem Denken, in der Identifikation relevanter Informationen und sogar im Modellieren anderer Köpfe und sozialer Situationen erzielen. Die Kurven legen auch abnehmende Erträge offen: Einfach mehr Parameter zuzufügen bringt schließlich nur noch mäßige Fähigkeitsgewinne.

Anforderungsprofile nutzen, um KI‑Verhalten vorherzusagen und zu steuern
Figure 2
Abbildung 2.

Da Aufgaben und Systeme nun auf demselben Satz von Skalen leben, können die Autoren die Evaluierung als Vorhersageproblem behandeln. Sie trainieren einfache Machine‑Learning‑„Assessoren“, die nur die 18 Anforderungsniveaus einer Frage als Eingabe nehmen und die Wahrscheinlichkeit ausgeben, dass eine bestimmte KI sie korrekt beantwortet. Diese Assessoren sagen Erfolg sehr genau voraus, nicht nur bei vertrauten Aufgaben, sondern auch bei völlig neuen und bei Benchmarks, die vom Training ausgeschlossen wurden. Sie übertreffen wesentlich aufwändigere Black‑Box‑Ansätze, die auf Text‑Embeddings oder direktes Feinabstimmen großer Modelle setzen. Das ermöglicht praktische Anwendungen wie das Weiterleiten jeder eingehenden Anfrage an das Modell, das sie am wahrscheinlichsten sicher bewältigt, oder das Ablehnen von Anfragen, die außerhalb der verlässlichen Zone aller Modelle liegen, bevor Schaden entsteht.

Ein Schritt hin zu einer Wissenschaft der KI‑Evaluierung

Die Autoren schließen, dass allgemeine Anforderungs‑ und Fähigkeitskalen revolutionieren können, wie wir KI beurteilen und einsetzen. Anstatt immer größeren, kurzlebigen Benchmarks und undurchsichtigen Aggregatwerten hinterherzujagen, können wir ein stabiles, erweiterbares Messsystem aufbauen, das erklärt, warum Systeme versagen, sie fair über Domänen vergleicht und ihr Verhalten bei neuen Aufgaben antizipiert. Ähnlich wie standardisierte Einheiten in der Physik präzises Ingenieurwesen möglich machten, könnte ein gemeinsamer, gut gestalteter Satz kognitiver Skalen eine Grundlage für sicherere und besser vorhersehbare KI‑Nutzung in den kommenden Jahren bilden.

Zitation: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2

Schlüsselwörter: KI-Bewertung, Benchmarking, große Sprachmodelle, prädiktive Einschätzung, KI-Sicherheit