Clear Sky Science · ru

Воспитание визуальной диеты по-человечески даёт устойчивое и основанное на форме зрение ИИ

· Назад к списку

Почему важно учить компьютеры видеть как дети

Современное компьютерное зрение умеет помечать ваши фотографии и помогать автономным автомобилям, но по-прежнему воспринимает мир иначе, чем мы. Если люди естественно улавливают общую форму объектов и справляются с размытостью, шумом и беспорядком, то многие системы искусственного интеллекта цепляются за тонкие текстуры и разваливаются при искажениях изображения. В этой статье рассматривается свежая идея: вместо того чтобы просто делать модели больше, что если воспитывать их похожим образом на человеческих детей, постепенно улучшая то, что они видят?

Figure 1. ИИ осваивает устойчивое зрение, следуя тому же пути от размытого к чёткому восприятию, который проходят человеческие глаза от младенчества до взрослого возраста.
Figure 1. ИИ осваивает устойчивое зрение, следуя тому же пути от размытого к чёткому восприятию, который проходят человеческие глаза от младенчества до взрослого возраста.

Как компьютеры и люди видят иначе сейчас

Большинство популярных систем зрения обучаются с самого начала на чётких, высококонтрастных, полноцветных изображениях. В результате они склонны сильно полагаться на поверхностные детали, такие как узоры меха или фактура кирпича. В строго спроектированных тестах, где контур объекта и его поверхностный узор вступают в конфликт, люди почти всегда ориентируются по контуру, тогда как стандартные сети обычно следуют текстуре. Эти модели также испытывают трудности с обнаружением простых форм, скрытых в загруженных сценах, и их производительность может падать при размытии, шуме или незначительных цифровых правках, невидимых для человека. Все эти проблемы указывают на базовое несоответствие между искусственным и человеческим зрением.

Заимствование визуального «детства» человека

Младенцы не начинают жизнь с кристально-чёткого зрения. Их мир поначалу размытый, с низкой контрастностью и бедной цветовой насыщенностью, и только со временем становится резче и ярче в течение многих лет. Исследователи собрали десятилетия работ о том, как три аспекта зрения развиваются с рождения до примерно 25 лет: острота, чувствительность к контрасту и цветовая чувствительность. Они преобразовали эти измерения в «учебную программу» обработки изображений, которую называют развити́тельной визуальной диетой. Во время обучения изображения, подаваемые сети, сначала сильно размыты, с низким контрастом и почти серые, а затем шаг за шагом становятся чище, богаче по контрасту и полноцветными, повторяя человеческий визуальный рост.

От слежения за текстурами к фокусировке на форме

Глубокие сети, обученные с использованием этой развити́тельной визуальной диеты, сравнивали с традиционным обучением на высококачественных изображениях. В разных архитектурах и наборах данных новый подход сформировал значительно более сильное предпочтение формы, достигнув диапазона, наблюдаемого у человеческих испытуемых, при минимальных потерях стандартной точности распознавания. При анализе частей изображения, на которые опирались модели, системы, обученные по развитию, фокусировались на областях целых объектов, тогда как стандартные модели заостряли внимание на мелких фрагментах текстуры или на заднем плане. Дальнейшие тесты показали, что постепенное улучшение контраста, больше чем только размытие или цвет, сыграло ключевую роль в сдвиге сетей в сторону использования широкой структуры объектов вместо разбросанных локальных деталей.

Figure 2. Пошаговое увеличение чёткости изображений переводит сеть ИИ от опоры на текстуры к распознаванию целостных форм объектов, устойчивых к шуму и искажениям.
Figure 2. Пошаговое увеличение чёткости изображений переводит сеть ИИ от опоры на текстуры к распознаванию целостных форм объектов, устойчивых к шуму и искажениям.

Распознавание скрытых форм и работа с «грязными» изображениями

Далее команда проверила модели на картинках, где знакомые формы, такие как велосипед или дельфин, тонко вплетены в сложные сцены. Люди легко замечают эти контуры, но большинство существующих систем, включая крупные модели зрения и языка, в основном реагируют на фон сцены. Сети, воспитанные на развития́тельной визуальной диете, гораздо лучше вспоминали скрытые формы и меньше отвлекались на окружение. Они также гораздо устойчивее переносили искажения изображений — размытие, шум, плохое освещение или эффекты, похожие на погодные, такие как дождь и снег — зачастую повторяя человеческие тенденции. Даже против атак, где к изображению добавляют едва заметные цифровые изменения, вводящие в заблуждение многие модели, системы, обученные по развитию, оставались существенно точнее стандартных и даже некоторых специально устойчивых моделей.

Что это означает для более безопасного и человечного ИИ

Питая ИИ визуальным «детством», созвучным нашему, эта работа показывает, что способ обучения модели может быть не менее важен, чем её размер. Простая, биологически вдохновлённая учебная программа оттолкнула сети от хрупких текстурных ухищрений и подтолкнула их к устойчивому использованию формы, улучшила распознавание абстрактных форм в загромождённых сценах и повысила сопротивляемость как естественным искажениям, так и враждебным атакам. Для неспециалистов главный вывод таков: начиная с «плохого» зрения и позволяя ему созревать, можно помочь машинам выработать более прочные, похожие на человеческие способы видения, что даёт более экономичный путь к безопасному визуальному ИИ.

Цитирование: Lu, Z., Thorat, S., Cichy, R.M. et al. Adopting a human developmental visual diet yields robust and shape-based AI vision. Nat Mach Intell 8, 735–748 (2026). https://doi.org/10.1038/s42256-026-01228-6

Ключевые слова: зрение ИИ, визуальное развитие, смещение в пользу формы, устойчивое восприятие, глубокое обучение