Clear Sky Science · ru

Универсальные шкалы открывают возможности оценки ИИ с объясняющей и предсказательной силой

· Назад к списку

Почему нам нужны лучшие ведомости для ИИ

По мере того как системы искусственного интеллекта переходят от чат-ботов и помощников по программированию к научным лабораториям, классным комнатам и рабочим местам, становится крайне важно понимать, что они могут, а что — нет. Современные «отчёты» об ИИ в основном состоят из одного тестового балла по узким бенчмаркам, который мало говорит о причинах успеха или неудачи системы — или о том, как она поведёт себя при новой задаче. В этой статье предлагается новый способ измерения ИИ, целью которого является та же системность и долговечность, что и у шкал температуры для погоды, давая более ясное представление о сильных и слабых сторонах ИИ и о будущей производительности.

От разрозненных тестов к общим шкалам

Большинство текущих оценок ИИ напоминают школьные экзамены, создаваемые по одному: каждый бенчмарк смешивает множество навыков и уровней сложности, а итоговая оценка выражается одним процентом. Этот процент зависит не меньше от причуд теста, чем от способностей ИИ. Авторы утверждают, что это делает невозможным предсказание поведения на новых задачах и порождает путаницу — например, когда один математический бенчмарк заявляет, что модель «хорошо рассуждает», а другой говорит обратное. Вместо простого усреднения баллов они предлагают описывать каждую задачу по тому, насколько она требует по набору общих, понятных человеку шкал.

Создание общего измерителя способностей ИИ

Чтобы создать этот общий измеритель, команда разработала 18 шкал требований, охватывающих широкие умственные навыки и области знаний. Сюда входят способности, такие как понимание языка, следование цепочкам рассуждений, рефлексия над собственными знаниями и знание фактов из естественных, социальных, прикладных и формальных наук. Они также отслеживают «внешние» требования, которые могут делать задачи легче или труднее, не меняя исходный навык — например, насколько необычен вопрос, насколько он насыщен информацией или имеет ли он формат множественного выбора. Каждая шкала простирается от нулевого требования до всё более сложных уровней, примерно выровненных так, что переход на следующий уровень означает, что значительно меньше людей — или ИИ — должны уметь решать задачу.

Обучение машин маркировать то, чего действительно требуют задачи
Figure 1
Figure 1.

Ручная оценка тысяч вопросов по 18 шкалам была бы невозможна только силами экспертных панелей, поэтому авторы используют продвинутые языковые модели в роли аннотаторов. Они составляют подробные рубрики с примерами для каждого уровня каждой шкалы, затем просят модель (GPT‑4o) присвоить уровни требований более чем 16 000 вопросам, взятым из 20 современных бенчмарков ИИ. Человеческие эксперты проверяют подмножество и достигают высокой согласованности с метками модели. После аннотирования каждый бенчмарк можно визуализировать как «профиль требований», показывающий, какие способности он действительно задействует. Это выявляет, что многие прославленные тесты не измеряют то, что задумали их создатели: одни претендуют на проверку рассуждений, но на деле опираются на редкие фактические знания, другие сосредоточены на одном уровне сложности, и почти ни один не является одновременно чувствительным (покрывающим широкий диапазон уровней) и специфичным (избегающим непредвиденных навыков).

Чтение кривых способностей ИИ вместо сырых баллов

Используя те же шкалы для задач, следующий шаг — посмотреть, как разные системы ИИ справляются с растущими требованиями по каждой оси. Авторы тестируют 15 больших языковых моделей из трёх основных семейств и для каждой шкалы рассматривают вероятность успеха по мере усложнения задач. Аппроксимация гладкими кривыми этих точек даёт «уровень способности» для каждой модели по каждой шкале: тот уровень требований, при котором модель преуспевает примерно в половине случаев, когда другие требования не выше. В отличие от сырой точности, эти показатели способности не зависят от конкретного соотношения простых и сложных задач в бенчмарке. Полученные профили показывают отчётливые закономерности: более крупные модели в основном улучшают фактические знания, тогда как специализированные «рассуждающие» модели сильнее растут в числовом и логическом мышлении, умении выделять релевантную информацию и даже в моделировании чужих мыслей и социальных ситуаций. Кривые также показывают эффект убывающей отдачи: простое увеличение числа параметров в конечном счёте даёт лишь скромный прирост способностей.

Использование профилей требований для прогнозирования и контроля поведения ИИ
Figure 2
Figure 2.

Поскольку и задачи, и системы теперь находятся в одном наборе шкал, авторы рассматривают оценивание как задачу предсказания. Они обучают простые машинно-обучающие «оценщики», которые берут на вход только 18 уровней требований для вопроса и выдают вероятность того, что конкретный ИИ ответит правильно. Эти оценщики прогнозируют успех очень точно, не только на знакомых задачах, но и на совершенно новых и на бенчмарках, исключённых из обучения. Они превосходят куда более тяжёлые чёрные ящики, основанные на эмбеддингах текста или дообучении больших моделей напрямую. Это открывает практические применения, например маршрутизацию входящих запросов к той модели, которая с наибольшей вероятностью справится с ними безопасно, или отклонение запросов, выходящих за пределы надёжной зоны любой модели, до того как будет причинён вред.

Шаг к науке об оценке ИИ

Авторы делают вывод, что общие шкалы требований и способностей могут преобразить подход к оценке и развёртыванию ИИ. Вместо погонь за всё большими, недолговечными бенчмарками и непрозрачными агрегированными показателями можно создать стабильную, расширяемую систему измерений, которая объясняет, почему системы терпят неудачи, справедливо сравнивает их в разных областях и предсказывает их поведение на новых задачах. Подобно тому как стандартизованные единицы в физике сделали возможным точное инженерное дело, общий, хорошо продуманный набор когнитивных шкал может стать основой для более безопасного и предсказуемого использования ИИ в предстоящие годы.

Цитирование: Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2

Ключевые слова: оценка ИИ, бенчмаркинг, большие языковые модели, предсказательная оценка, безопасность ИИ