Clear Sky Science · ru

Моделирование внимания и связывания в мозге через двунаправленное рекуррентное управление воротами

· Назад к списку

Как мозг узнаёт, на что смотреть

Каждое мгновение ваши глаза посылают в мозг куда больше информации, чем вы могли бы осознанно заметить. Тем не менее вы без усилий можете отыскать знакомого в толпе, следить за движущейся машиной или найти ключи на захламлённом столе. Эта способность фокусироваться на важном, связывать нужные признаки вместе и игнорировать отвлечения называется вниманием. Описанная здесь статья представляет новую модель, вдохновлённую мозгом, которая стремится объяснить, как такое разнообразие приёмов внимания может возникать из единого базового механизма.

Figure 1
Figure 1.

Одна модель для многих видов фокуса

Внимание — это не что-то единичное. Иногда мы фокусируемся на месте в пространстве, как прожектор. Иногда мы настраиваемся на признак, например на определённый цвет, а иногда фиксируемся на целых объектах, удерживая их части вместе, даже когда они движутся или частично скрыты. Авторы утверждают, что вместо отдельных специализированных систем все эти формы внимания могут возникать из общего схемного паттерна в зрительном пути мозга. Они создают модель, имитирующую вентральный зрительный поток — набор областей мозга, преобразующих пиксели на сетчатке в узнаваемые объекты. В их конструкции один путь передаёт информацию вверх, извлекая визуальные признаки, в то время как второй путь посылает сигналы вниз, решая, какие признаки следует усилить или ослабить.

Ворота, которые разговаривают в обе стороны

Сердцем модели является то, что авторы называют двунаправленным рекуррентным управлением воротами. Представьте себе стек стадий визуальной обработки — от простых краёв до сложных форм. На каждом этапе прямой сигнал несёт то, что есть на изображении, в то время как обратный и боковой сигналы несут информацию о том, что сейчас важно для задачи. Эти сигналы встречаются в «воротах», которые мультипликативно усиливают или ослабляют активность признаков в течение нескольких временных шагов. Благодаря рекуррентным связям модель может уточнять фокус со временем, подобно тому, как вы при первом взгляде на беспорядочную сцену постепенно наводите прицел на цель. Архитектура обучается стандартными методами машинного обучения по двум базовым задачам — классификации присутствующих объектов и сегментации их расположения — при этом ей явно не говорят, как реализовать внимание.

Обучение искать, отслеживать и игнорировать отвлечения

После обучения модель тестируют на наборе классических задач внимания, которые обычно дают людям и животным. Используя изображения, составленные из рукописных цифр и из природных фотографий животных, она учится распознавать объекты в загромождении, группировать элементы по подсказке, отслеживать движущиеся объекты и выполнять визуальный поиск на основе либо визуальных намёков, либо символических указаний вроде стрелок. Она может выделить единственный отличающийся элемент в сетке, переключать внимание с одного объекта на другой, не «заедая» на одном и том же, и отслеживать цель во времени, игнорируя отвлекающие элементы. Поразительно, что многие из этих поведенческих проявлений возникают даже когда модель получает обратную связь только о конечном ответе, а не о том, куда ей нужно было смотреть, что указывает на то, что стратегии внимания могут появляться как побочный эффект обучения решать релевантные задачи.

Отражение человеческого восприятия и сигналов мозга

Затем авторы проверяют, ведёт ли себя модель подобно человеку в более тонких аспектах. В контролируемых тестах с простыми паттернными пятнами модель показывает повышенную чувствительность, когда подсказка указывает на правильное место, и её результаты ухудшаются при большом количестве отвлекающих элементов — что параллельно с наблюдениями людей по контрастной чувствительности и перцептивной нагрузке. Она также «попадается» на классическую иллюзию восприятия, когда видимый перекрывающий объект делает фрагментированную форму более узнаваемой, намекая, что модель разделяет фигуру и фон по-мозговому. Заглядывая внутрь сети, исследователи обнаруживают, что единицы в более глубоких слоях усиливают отклик, когда их предпочитаемый объект находится в фокусе, не меняя при этом свою базовую настройку — похоже на нейроны в зрительной коре приматов. Отдельные группы единиц ведут себя как детекторы признаков и клетки «принадлежности границы», помогающие решать, какая сторона края относится к фигуре, а какая — к фону.

Figure 2
Figure 2.

Почему это важно для мозга и машин

Работа показывает, что многие характерные черты биологического внимания — ориентирование по подсказкам, фильтрация несущественного мусора, поиск целей, связывание признаков в целостные объекты и даже некоторые провалы осознания — могут возникать из единого архитектурного принципа: рекуррентного управления воротами между путем признаков и путем внимания. Проще говоря, модель демонстрирует, как система, многократно переоценивающая увиденное с учётом текущих целей и контекста, может научиться «обращать внимание» без явного программирования для этого. Это даёт нейроучёным конкретную, проверяемую рамку для понимания внимания и связывания в мозге и предлагает исследователям искусственного интеллекта биологически вдохновлённую альтернативу современным преимущественно прямопроходным архитектурам.

Цитирование: Salehi, S., Lei, J., Benjamin, A.S. et al. Modeling attention and binding in the brain through bidirectional recurrent gating. Nat Commun 17, 4072 (2026). https://doi.org/10.1038/s41467-026-72146-9

Ключевые слова: визуальное внимание, связывание признаков, рекуррентные нейронные сети, вычислительная нейронаука, ИИ, вдохновлённый мозгом