Современные системы искусственного интеллекта на основе глубоких нейронных сетей теперь доверяют обнаруживать пешеходов в беспилотных автомобилях, распознавать лица на фотографиях и помогать врачам анализировать медицинские снимки. Тем не менее у этих систем есть удивительно уязвимая точка: небольшие, тщательно рассчитанные изменения изображения — неощутимые для человека — могут привести к совершенно ошибочным выводам. Исследование в этой статье занимается этой уязвимостью, предлагая новый способ создания таких «адверсариальных» изображений, которые способны обманывать множество различных моделей одновременно, что служит и более веским предупреждением о безопасности ИИ, и мощным инструментом для стресс‑тестирования будущих систем.
Как сегодня атакуют нейронные сети
Большинство существующих методов атак действуют, подталкивая каждый пиксель в направлении, которое максимально увеличивает обычную функцию потерь модели при обучении. Когда злоумышленники полностью знают модель — её архитектуру и параметры — такая «white‑box» стратегия очень эффективна. Но в реальном мире мы чаще имеем дело с «black‑box» моделью, развёрнутой компанией или клиникой, где внутренние детали скрыты. Чтобы атаковать такую модель, нужно создавать адверсариальные изображения на суррогатной модели и надеяться, что они также обманут скрытую систему — это свойство называется переносимостью. Стандартные приёмы на основе градиента часто переобучаются для суррогата: они эксплуатируют особенности границ решений именно этой модели, поэтому их успех резко падает при применении к другим архитектурам или к моделям, защищённым с помощью оборонительного обучения.
Изучая, на что модель обращает внимание
Авторы исходят из простой, но мощной наблюдаемости: разные нейронные сети, обученные на одном датасете, как правило, «смотрят» на похожие участки изображения при вынесении одного и того же предсказания. Это внутреннее внимание можно визуализировать как тепловую карту, показывающую, какие пиксели вносят наибольший вклад в решение — нечто вроде карты внимания машины. Даже при различающихся архитектурах эти модели часто демонстрируют поразительное сходство в распределении внимания для одного и того же входа и метки. В статье это общее поведение формализовано как свойство внимательной семантики (Attentional Semantic Property, ASP) — количественное описание того, насколько сильную поддержку каждой категории даёт каждый пиксель. Вместо того чтобы рассматривать карты внимания лишь как инструмент визуализации, авторы превращают саму ASP в объект, поддающийся непосредственной оптимизации.
Разрушать общую семантику, а не гнаться за метками Figure 1.
Исходя из этой идеи, в статье предложена Атака на внимательную семантику (Attentional Semantic Attack, ASA). Вместо того чтобы сдвигать изображение для увеличения обычной ошибки классификации, ASA ищет крошечные изменения пикселей, которые целенаправленно искажают ASP. Цель атаки — уменьшить внимание, направленное на истинный класс, и одновременно усилить внимание к какому‑то другому, неверному классу. Чтобы избежать переадаптации к одной альтернативной метке, ASA часто случайным образом выбирает эту «другую» метку на каждом шаге оптимизации, заставляя возмущение нарушать более общие паттерны свидетельств, а не просто менять местами первые два предсказания. Технически ASA вычисляет покомпонентные карты релевантности с помощью метода, называемого послойной релевантной прокапливания (Layer‑wise Relevance Propagation), затем определяет функции потерь, измеряющие, насколько похожи или различны эти карты до и после искажения. Итеративное следование градиенту этой потери на основе внимания даёт «внимательные возмущения», которые меняют то, что несколько моделей считают важным на изображении.
Измерение и сравнение ущерба
Для оценки метода авторы генерируют адверсариальные изображения на одной хорошо известной модели и проверяют их на дюжине других, включая стандартные сверточные сети, модели, укреплённые адверсариальным обучением, и современные визуальные трансформеры. В обширных экспериментах на основе ImageNet ASA последовательно достигает более высоких показателей успешности атаки по сравнению с широким кругом конкурентов, использующих хитрые градиентные приёмы, преобразования входа или манипуляции промежуточными признаками. В статье также предложен новый способ количественной оценки «сильности» атаки, называемый изменением уверенности в метке (Label Confidence Change, LCC). Вместо того чтобы просто проверять, сменилась ли предсказанная метка, LCC измеряет, насколько упала уверенность модели в исходно правильном классе. Высокое LCC указывает на то, что изображение подверглось глубокой порче, скорее всего переносимой на невидимые модели, и образцы ASA демонстрируют заметно более высокие значения LCC по сравнению с конкурентами.
Заглядывая в механизм атаки Figure 2.
Визуальные сравнения тепловых карт внимания помогают объяснить, почему ASA так хорошо переносится между моделями. При традиционных атаках яркие области фокуса внутри сети смещаются лишь незначительно по мере итераций, даже если итоговое предсказание неверно; базовое представление модели о том, где находится объект, остаётся в целом неизменным, что ограничивает обобщаемость возмущения. При ASA многократное применение внимательных возмущений радикально перестраивает эти карты: внимание уходит от истинного объекта и мигрирует в фоновые области или к нерелевантным структурам. Такая полномасштабная перестройка внутреннего фокуса наблюдается как в обычных, так и в защищённых моделях и может быть дополнительно усилена сочетанием ASA с существующими приёмами улучшения, такими как случайное изменение размера входа или ансамбли суррогатных моделей.
Что это значит для более безопасного ИИ
Проще говоря, статья показывает, что современные системы компьютерного зрения разделяют общее «чувство смысла» в том, что важно на изображении — и что целенаправленный шум может спутать это общее значение сразу для многих разных моделей. Нанося удар непосредственно по вниманию, а не только по конечным оценкам классов, ASA создаёт адверсариальные изображения, от которых текущие защиты труднее отмахнуться, и которые надёжнее подходят для стресс‑тестирования реальных систем. Для защитников это подчёркивает, что охрана ИИ потребует защиты не только выходов модели, но и внутренних путей внимания, лежащих в основе её понимания мира.
Цитирование: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability.
Sci Rep16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8
Ключевые слова: адверсариальные примеры, безопасность нейронных сетей, карты внимания, атакa в черном ящике, классификация изображений