Clear Sky Science · ru

Нейронная настройка динамически согласуется с многообразиями объектов и текстур по визуальной иерархии

· Назад к списку

Как мозг видит не только предметы

Когда вы мельком смотрите на оживлённую улицу, ваш мозг мгновенно извлекает смысл из путаницы машин, лиц, листьев и теней. Но отдельные клетки мозга не просто реагируют на аккуратные категории вроде «машина» или «лицо». Они часто откликаются на множество неродственных изображений, что ставит учёных в тупик относительно того, что же на самом деле важно для этих клеток. В этом исследовании используются продвинутые генераторы изображений на основе искусственного интеллекта, чтобы позволить отдельным нейронам «создавать» свои любимые картины, раскрывая, как мозг балансирует между чувствительностью к тонким текстурам и распознаванием целых объектов.

Два разных визуальных мира

Учёные работали с двумя мощными генераторами изображений, у каждого — свой визуальный «акцент». Один, называемый DeePSim, особенно хорош в создании богатых текстур и узоров, но его изображения часто лишены чётких, узнаваемых объектов. Другой, BigGAN, обучен создавать резкие, фотореалистичные картины, заполненные различимыми предметами, такими как животные и инструменты. Рассматривая эти генераторы как альтернативные способы разбиения пространства возможных изображений, команда могла спросить, соотносятся ли клетки мозга больше с текстуроцентричным или объектноцентричным представлением мира.

Пусть нейроны выбирают собственные картинки

У макак исследователи регистрировали активность нейронов вдоль вентрального визуального пути — цепочки областей мозга, которые превращают сырое зрительное возбуждение в распознавание объектов. Они сосредоточились на трёх станциях: V1 (ранняя зрительная кора), V4 (промежуточная область) и PIT (задняя инферотемпоральная кора, область высокого уровня). В ходе экспериментов частота спайков каждого нейрона управляла поиском в скрытом пространстве каждого генератора в замкнутом цикле. В быстрых последовательностях нейрону показывали синтетические изображения; те изображения, которые вызывали больше всплесков, сдвигали генератор в сторону похожих картин на следующем шаге. За много поколений эта «эволюция» породила сильно активирующие изображения как в текстурном, так и в объектном пространствах.

Figure 1
Figure 1.

Скрытые локальные признаки, а не только целые объекты

Удивительно, но когда нейрон оптимизировал изображения в текстурно-ориентированном и в объектно-ориентированном пространствах, итоговые картинки часто выглядели глобально по-разному, но разделяли специфический локальный мотив — например, изогнутый край или цветной фрагмент — в схожем месте. Анализы с использованием глубоких нейронных сетей подтвердили, что такие парные изображения были более похожи в пространстве признаков, чем изображения, оптимизированные для разных нейронов. Пространственные карты показали, что активность нейрона лучше всего предсказывалась определёнными регионами внутри изображений, что указывает на то, что многие клетки реагируют на повторяющиеся локальные строительные блоки, которые могут появляться в самых разных сценах, а не на единый жёсткий шаблон объекта.

Сдвиг баланса от текстур к объектам

Команда затем изучила, насколько легко нейроны в каждой области могли «взобраться» к сильному отклику в каждом из пространств изображений. В ранних областях V1 и V4 оптимизация в текстурном пространстве удавалась чаще, проходила быстрее и достигала более высоких пиков отклика, чем в объектном пространстве, что выявило явное смещение в сторону текстур. В PIT же нейроны работали хорошо в обоих пространствах: их можно было сильно возбуждать как текстуроподобными, так и объектоподобными синтетическими изображениями, и скорости оптимизации становились сопоставимы. Анализ временных характеристик ответов добавил ещё одну деталь. В PIT изображения на основе текстур чаще усиливали ранние ответы, тогда как объектные изображения сильнее вовлекали более поздние, устойчивые разряды, что намекает на то, что обработка, ориентированная на объекты, возникает медленнее по времени.

Карты предпочтений в объектном пространстве

Чтобы исследовать тонкую форму этих предпочтений, учёные провели эксперименты по «гессианной настройке» в латентном пространстве объектного генератора. После того как нейрон достиг сильного отклика на оптимизированное объектоподобное изображение, они систематически отбирали изображения вдоль множества направлений вокруг этой точки. Когда оптимизация действительно находила высокий пик, частота спайков нейрона обычно образовывала колоколообразные кривые вдоль этих направлений, повышаясь, а затем падая по мере удаления изображений от предпочитаемого. Когда оптимизация не достигала сильного пика, кривые настройки часто выглядели скорее как нарастающие наклоны. Это показывает, что то, кажется ли нейрону присущим узкий фаворит или постепенное предпочтение, может зависеть от того, насколько тщательно мы исследуем огромное пространство возможных изображений.

Figure 2
Figure 2.

Что это значит для понимания зрения

В целом исследование рисует образ вентрального визуального пути как гибкой системы, которая изначально отдаёт предпочтение текстурам и постепенно приобретает одинаково сильное представление о структуре объектов. Вместо кодирования целых объектов как неделимых единиц, нейроны, по-видимому, в первую очередь ориентируются на переиспользуемые локальные признаки, которые можно комбинировать в самых разных сценах. Нейроны высокого уровня в PIT могут соотноситься как с текстурным, так и с объектным описанием визуального мира — универсальность, которой современные искусственные сети всё ещё трудно достичь. Для непрофессионального наблюдателя ключевая мысль такова: наш мозг — не просто «детектор объектов», а сложный движок по распознаванию шаблонов, способный извлекать смысл как из тонких текстур, так и из целых форм, переключая акцент по пространству и времени, чтобы поддерживать богатое зрительное переживание, которое мы считаем само собой разумеющимся.

Цитирование: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1

Ключевые слова: зрительная кора, распознавание объектов, обработка текстур, генеративные модели, нейронная настройка