Clear Sky Science · ru

Когнитивная генерализация в духе человека для больших моделей через обучение, управляемое ментальными представлениями

2026-04-01 · Назад к списку

Почему важно учить ИИ мыслить как мы

Современный искусственный интеллект умеет распознавать лица, подписывать фотографии и писать связный текст, но ему всё ещё трудно достичь той гибкости понимания, которую люди используют ежедневно. Мы видим одну птицу — и затем узнаём множество видов птиц; понимаем, что и гамак, и детская коляска связаны с лежанием для отдыха. В этой статье рассматривается новый подход, который приближает компьютерные модели к такому человеческому стилю мышления, используя саму активность мозга в качестве сигнала обучения.

Где слабые места современных «умных» машин

Обычные системы глубокого обучения становятся мощнее в основном за счёт увеличения размеров и объёма данных для обучения. Этот подход хорошо работает для конкретных задач, таких как распознавание носков, лебедей или автомобилей на изображениях. Однако авторы показывают, что простое увеличение числа параметров даёт мало преимуществ в освоении абстрактных идей — например одежды, птиц или более широкого разделения на живое и неживое. При тестах на обучение «с одного примера» модели заметно улучшались в распознании конкретных объектов по мере роста, но почти не продвигались, а иногда и ухудшались, в распознавании высокоуровневых категорий. Анализ их внутреннего разделения понятий показал, что, в отличие от человеческого мозга, модели по‑умолчанию не группировали живые существа отдельно от инструментов и других предметов.

Figure 1. Как шаблоны мозговой активности могут научить ИИ группировать и понимать объекты более по‑человечески.

Пусть мозг направляет машину

Чтобы преодолеть этот пробел, исследователи разработали то, что назвали обучением с надзором, направляемым ментальными представлениями. Испытуемые лежали в сканере мозга, рассматривая множество естественных изображений. Из этих записей команда извлекла паттерны активности в областях зрительной коры, которые, как известно, кодируют богатую, высокоуровневую информацию о видимом. Одновременно искусственная сеть обрабатывала те же изображения. Ключевая идея заключалась в том, чтобы заставить внутреннюю структуру сходств и различий между объектами в сети согласоваться со структурой, найденной в мозге. Авторы рассматривали и мозг, и модель как графы взаимосвязанных понятий и использовали итеративную процедуру согласования графов, чтобы приблизить их друг к другу.

Как ведут себя модели, выровненные по мозгу

После такого специального обучения модели не просто запомнили контролируемые изображения. Вместо этого они выстроили более по‑человечески организованную карту понятий, которая обобщалась на множество новых объектов, никогда не сопряжённых с данными мозга. Улучшенные модели значительно лучше справлялись с обучением «с одного примера» для абстрактных категорий, демонстрируя более плотные кластеры для понятий вроде «животное», «транспорт» или «музыкальный инструмент». Их внутренние иерархии стали напоминать WordNet — вручную созданную базу связей английских слов, хотя модели никогда явно не обучались на этой структуре. При выборе «лишнего предмета» среди трёх изображений модели, ориентированные на мозг, чаще давали ответы, согласующиеся с крупными наборами человеческих суждений. Они также оказались более стойкими к небольшим, тщательно подобранным искажениям изображений, что говорит о более глубоком и надёжном понимании того, что такое объекты.

Окно в более человеческое пространство понятий

Авторы пошли дальше и исследовали «понятийное многообразие», или низкоразмерную карту, лежащую в основе моделей, выровненных по мозгу. Перемещаясь по этой карте и декодируя точки в описания на естественном языке, они показали, что соседние положения соответствуют семантически связанным идеям — например разным видам одежды или транспортных средств. Интерполяция между регионами давала плавные переходы: например, при движении от электронных устройств в сторону животных на пересечении территорий «транспорт» и «копытные» появлялись лошади. Система также могла суммировать несколько родственных изображений в одно содержательное предложение и выполнять простую «арифметику понятий», корректируя подписи путём добавления или вычитания элементов, таких как «лошадь» или «мотоцикл», в соответствии с человеческой интуицией.

Figure 2. Как выравнивание ИИ с активностью мозга перестраивает его внутренние представления, улучшая работу с абстрактными категориями и новыми ситуациями.

Что это значит для будущего ИИ

Проще говоря, работа показывает, что небольшой толчок со стороны человеческого мозга может помочь ИИ выйти за пределы простого сопоставления шаблонов и приблизиться к тому, как мы сами организуем знания. Вместо того чтобы просто увеличивать модели, исследование демонстрирует, что формирование их внутреннего пространства понятий по образцу мозговой структуры может повысить способность справляться с новыми, абстрактными и необычными ситуациями. Хотя подход по‑прежнему зависит от детальных данных сканирования мозга отдельных людей, расширение таких мозгоинформированных методов обучения может привести к созданию искусственных систем, которые будут более адаптивными, интерпретируемыми и согласованными с тем, как люди воспринимают и рассуждают о мире.

Цитирование: Chen, J., Qi, Y., Wang, Y. et al. Human-like cognitive generalization for large models via mental representation-guided supervision. Nat Commun 17, 4709 (2026). https://doi.org/10.1038/s41467-026-71267-5

Ключевые слова: обучение с опорой на мозг, абстрактные концепции, глубокие нейронные сети, иерархия понятий, когнитивная генерализация