Clear Sky Science · ru

Стратегия усиления на основе имитации признаков с использованием внимания для визуального обнаружения аномалий

· Назад к списку

Почему важно обнаружение необычных образцов на изображениях

От контроля продукции на фабрике, чтобы выявлять мелкие дефекты, до поиска необычных событий на городских улицах — компьютеры всё чаще просят помечать всё, что выглядит не на своём месте. В этой работе предложен новый подход, который помогает искусственному интеллекту надёжнее отличать нормальные сцены от подозрительных, даже если система при обучении видела только нормальные примеры.

Figure 1. Как сети «учитель-студент» и внимание работают вместе, чтобы заметить странные события и дефекты на изображениях и в видео.
Figure 1. Как сети «учитель-студент» и внимание работают вместе, чтобы заметить странные события и дефекты на изображениях и в видео.

Обучение компьютера тому, как выглядит норма

Во многих реальных сценариях настоящие аномалии встречаются редко и их трудно вручную размечать. Поэтому большинство систем обучаются лишь на нормальных изображениях и видео, а затем пытаются заметить всё, что не соответствует увиденному ранее. Распространённый подход — обучить модель восстанавливать, или «реконструировать», входные изображения и считать большие ошибки реконструкции сигналом тревоги. Но современные модели настолько мощны, что иногда слишком хорошо восстанавливают аномальные сцены, из‑за чего возникают опасные ошибки: бракованная продукция или странные события принимаются за обычные.

Обучение от более сильного наставника

Авторы решают эту проблему, объединяя две модели — «учителя» и «студента». Учитель — заранее обученная сеть, которая уже умеет выполнять задачу реконструкции на нормальных данных. Вместо того чтобы просить студента только восстанавливать изображения, новый метод дополнительно предлагает ему имитировать внутренние признаки учителя. Эти скрытые признаки отражают общую семантику и структуру нормальных сцен. Когда показывают аномальное изображение, студент, обученный лишь на норме, испытывает трудности с копированием внутренних откликов учителя. Это несоответствие становится мощной дополнительной подсказкой о том, что что‑то не в порядке, сверх простых различий на уровне пикселей.

Позволяя вниманию следовать за несоответствием

Чтобы максимально использовать разногласия между учителем и студентом, в статье добавлен специальный модуль внимания, управляемый несогласованностью признаков. Сначала вычисляют «карту различий» между признаками учителя и студента. Для нормальных входов эта карта, как правило, мала и гладкая, но вокруг по-настоящему аномальных областей она «загорается». Модуль внимания затем использует эту карту, чтобы усиливать или ослаблять части признаков студента, побуждая систему фокусироваться на регионах с наибольшим несоответствием. В отличие от традиционного внимания, которое обычно выделяет визуально заметные области, это внимание основывается чисто на семантической несогласованности между учителем и студентом, что делает его более напрямую связанным с аномалиями.

Figure 2. Как различия между признаками учителя и студента направляют внимание, выделяя действительно аномальные области.
Figure 2. Как различия между признаками учителя и студента направляют внимание, выделяя действительно аномальные области.

Проверка идеи на видео и фабричных изображениях

Исследователи интегрируют схему имитации признаков и внимания в несколько ведущих систем обнаружения аномалий для систем видеонаблюдения и промышленных изображений продукции. Они тестируют объединённые методы на трёх сложных бенчмарках: Avenue и ShanghaiTech для необычных событий в сценах кампуса и MVTec AD для тонких дефектов в объектах и текстурах, таких как ковры, металлические детали и зубные щётки. Во всех тестах усовершенствованные системы последовательно превосходят исходные версии, обнаруживая больше аномалий при сохранении контролируемого уровня ложных срабатываний. В некоторых категориях точность локализации областей дефектов улучшается более чем на двадцать процентных пунктов, показывая, что дополнительная индикация от несоответствия признаков и внимания заметно «точит» взгляд модели.

Что это значит для надёжного автоматического мониторинга

Для непрофессионала главный вывод таков: эта работа даёт компьютерам лучшее понимание того, что действительно «не принадлежит» изображению или видео. Путём просьбы к модели‑студенту не только копировать видимое, но и подражать внутреннему мышлению надёжного учителя, а затем направлять внимание в области их разногласий, метод снижает риск того, что необычные события или дефекты пройдут незамеченными. Это делает автоматические линии инспекции и системы видеонаблюдения более надёжными без необходимости больших наборов размеченных аномальных примеров.

Цитирование: Zheng, B., Gan, Y., Wang, L. et al. A boosting strategy based on feature mimicking with attention for visual anomaly detection. Sci Rep 16, 15084 (2026). https://doi.org/10.1038/s41598-026-37667-9

Ключевые слова: визуальное обнаружение аномалий, сеть учитель-студент, механизм внимания, промышленный контроль, видеонаблюдение