Clear Sky Science · ru
Достижение более человеческого зрения, похожего на мозг, через выравнивание представлений с ЭЭГ человека
Почему это исследование важно
Современный искусственный интеллект может распознавать объекты на фотографиях с приближающейся к человеческой точностью, но он по-прежнему «не видит» мир так, как это делает наш мозг. В этом исследовании предложен новый способ настройки систем компьютерного зрения с помощью сигналов мозга, записанных у добровольцев, что приближает ИИ к человеческому визуальному пониманию. Направляя модель зрения непосредственно активностью человеческого мозга, работа намекает на будущее, где ИИ будет не только мощным, но и организованным более похоже на наш собственный ум.

Обучение машин с помощью мозговых волн
Авторы сосредоточились на простой, но смелой идее: вместо того чтобы обучать модели зрения только на изображениях и метках, почему бы не показать им также, как человеческий мозг реагирует на эти изображения? Они используют электроэнцефалографию (ЭЭГ), которая измеряет крошечные изменения напряжения на коже головы, когда люди просматривают изображения. ЭЭГ неинвазивна, относительно недорога и может быстро собираться в большом числе испытаний. Из десяти добровольцев команда использовала большой открытый набор данных, в котором каждый участник просматривал десятки тысяч природных изображений объектов, пока записывались их ЭЭГ-сигналы в первые две десятых секунды после появления каждого снимка.
Построение сети зрения, согласованной с мозгом
Начиная с существующей глубокой модели зрения под названием CORnet-S, исследователи добавили дополнительный модуль «изображение-в-мозг». Когда изображение поступает в сеть, модель теперь выполняет две задачи одновременно: она определяет, какой объект присутствует, и пытается предсказать паттерн ЭЭГ, который реальный человек показал для того же изображения. Для этого сигналы из нескольких внутренних слоев сети направляются в ЭЭГ-модуль, который обучается генерировать короткую временную последовательность, соответствующую человеческим данным. Во время обучения модель получает вознаграждение и за правильное распознавание объектов, и за воспроизведение активности, похожей на ЭЭГ, сдвигая свои внутренние признаки в сторону сходства с человеческой визуальной системой.
Ближе к активности мозга по разным методам
После обучения десяти таких «ReAlnet» (по одной на каждого субъекта) команда проверила, действительно ли эти модели стали более похожими на мозг. Они сравнили структуру отношений между изображениями внутри модели с таковой, наблюдаемой в человеческой ЭЭГ, используя метод, называемый анализом похожести представлений (representational similarity analysis). Во всех основных слоях и в временных точках между 50 и 200 миллисекундами ReAlnet последовательно были более похожи на человеческую ЭЭГ, чем исходный CORnet-S и другие стандартные модели, с пиковыми приростами до примерно 6% и относительным улучшением до 40%. Важно, что улучшение сохранялось даже для новых категорий объектов, никогда не использовавшихся в обучении, что показывает, что выравнивание обобщается за пределы обучающего набора.

Сверка с данными сканирования мозга и поведением
Ключевой вопрос заключался в том, научились ли модели просто подстраиваться под особенности ЭЭГ, или они уловили нечто более общее о человеческом зрении. Чтобы проверить это, авторы обратились к отдельному набору данных по визуализации мозга, где другие добровольцы смотрели природные изображения, абстрактные формы и буквы в МРТ-сканере. Несмотря на то, что ReAlnet никогда не видел эти данные, их внутренние паттерны ближе совпадали с сигналами из нескольких зрительных областей мозга, чем у исходной модели. Более того, степень улучшения для ЭЭГ и для МРТ была сильно скоррелирована между моделями, что предполагает усиление общей базовой репрезентации. Исследователи также оценили, как часто модели и люди совершали одинаковые ошибки в сложных задачах распознавания объектов. И здесь ReAlnet показали лучшее соответствие человеческому поведению по сравнению с базовыми моделями.
Персонализированное и общее мозгоподобное зрение
Поскольку каждая ReAlnet настраивалась по ЭЭГ одного человека, авторы могли исследовать индивидуальные различия. Они обнаружили, что персонализированные модели расходились друг с другом больше в глубоких слоях, повторяя тенденцию, что различия между людьми увеличиваются от ранних к высшим зрительным областям мозга. Тем не менее модель каждого человека по-прежнему лучше обобщалась на ЭЭГ других людей, чем несогласованная базовая модель, показывая, что она захватила как общую, так и индивидуально-специфическую структуру. Команда также распространила свою схему на другую архитектуру, ResNet18, и снова увидела улучшенное выравнивание с ЭЭГ, МРТ и (в меньшей степени) поведением, что указывает на гибкость подхода, а не привязку к единственному дизайну модели.
Что это значит для повседневного понимания
Для неспециалиста главный вывод таков: теперь возможно настраивать алгоритмы зрения напрямую с использованием неинвазивных записей активности человеческого мозга. Полученные ReAlnet не просто распознают объекты; они организуют информацию способами, которые ближе отражают наши собственные зрительные пути — по электрическим сигналам мозга, данным МРТ и даже по паттернам ошибок в задачах распознавания. Хотя улучшения умеренны и остаётся много технических задач, эта работа представляет собой конкретный шаг к ИИ-системам, внутренние механизмы которых формируются самим человеческим мозгом, что потенциально ведёт к более надёжным, интерпретируемым и персонализированным технологиям в будущем.
Цитирование: Lu, Z., Wang, Y. & Golomb, J.D. Achieving more human brain-like vision via human EEG representational alignment. Commun Biol 9, 463 (2026). https://doi.org/10.1038/s42003-026-09685-w
Ключевые слова: ИИ, согласованный с мозгом, ЭЭГ зрения, распознавание объектов, вычислительная нейронаука, человеко-подобное восприятие