Clear Sky Science · ru

Контрастный mean-teacher на основе прототипов для неконтролируемой адаптации домена в задачах детекции объектов

2026-03-27 · Назад к списку

Обучение компьютеров находить объекты в новых условиях

Современные системы ИИ с впечатляющей точностью находят автомобили, людей и дорожные знаки на фотографиях — до тех пор, пока не меняется окружающая обстановка. Детектор, обученный на солнечных городских улицах, может давать сбои в тумане, ночью или в стилизованных иллюстрациях. В этой работе предложен новый способ «обучить учителя» внутри таких систем, чтобы они могли адаптироваться к новым условиям без необходимости вручную размечать новые рамки.

Почему детекторы объектов испытывают трудности при смене условий

Детекция объектов опирается на огромные коллекции размеченных изображений, где каждый автомобиль, автобус или велосипед аккуратно ограничен рамкой. Но реальные камеры редко соответствуют условиям обучения. Различная погода, освещение или типы камер изменяют внешний вид объектов — явление, известное как сдвиг домена. В таких случаях детекторы, натренированные на одном домене, например на ясных дневных сценах, могут плохо работать в другом — например на туманных или ночных дорогах. Сбор новых разметок для каждой ситуации дорог, поэтому исследователи ищут методы, позволяющие адаптировать детекторы, используя только неразмеченные данные из нового домена.

Система самообучения с встроенным наставником

Популярная стратегия позволяет модели обучать саму себя. Сеть «учитель», представляющая собой сглаженную версию сети «студент», предсказывает рамки на неразмеченных целевых изображениях; эти предсказания, называемые псевдо-метками, затем используются для обучения студента. Со временем студент улучшается, а учитель обновляется как скользящее среднее весов студента. Однако если ранние псевдо-метки ошибочны — например пропускают объекты в густом тумане — ошибки могут накапливаться. Авторы показывают, что три идеи можно объединить для стабилизации такого самообучения: схема mean-teacher, контрастное обучение (которое сближает связанные признаки и раздвигает нерелевантные) и компактные «прототипы», суммирующие каждую категорию объектов.

Прототипы как ориентиры в пространстве признаков

Ядро предлагаемой архитектуры PoCoMT — Сеть выравнивания прототипов, ProtoAN. Вместо сравнения каждого объекта с каждым другим, ProtoAN изучает небольшой набор репрезентативных точек — прототипов — для каждой категории, например автомобиля или пешехода. Признаки, извлечённые из регионов изображения, отображаются в специальное пространство, где примеры одной и той же категории из разных доменов собираются вокруг общего прототипа, а разные категории разнесены. Контрастная функция потерь стимулирует такое кластеризование как внутри одного домена, так и между исходным и целевым доменами. Критически важно, что этот механизм рассматривает даже фон как отдельную категорию, что помогает системе отличать реальные объекты от мусора на изображении.

Лучшее использование неразмеченных данных

PoCoMT улучшает псевдо-метки учителя двумя способами. Во‑первых, цель «максимизации информации» подталкивает предсказания на целевых изображениях быть одновременно уверенными для каждого объекта и разнообразными по категориям, избегая тривиального поведения, когда всё помечается как один и тот же класс. Во‑вторых, ProtoAN уточняет псевдо-метки, сравнивая признаки с прототипами, а не полагаясь на сырые предсказания. Если предсказанный класс для региона не соответствует ближайшему прототипу, метка может быть скорректирована. Это делает систему более устойчивой к шуму: даже когда авторы намеренно искажали множество псевдо-меток во время обучения, PoCoMT деградировал более плавно по сравнению с конкурирующими методами.

Более мощные детекторы для сложных реальных сцен

Проверенный на широком наборе бенчмарков — включая переходы от ясной к туманной погоде, синтетики к реальным дорожным съёмкам, от дневного к сумеречному освещению и от реалистичных к художественным изображениям — PoCoMT последовательно превосходил существующие методы неконтролируемой адаптации домена, часто на несколько процентных пунктов по точности детекции. В некоторых случаях он даже опережал модели, обученные напрямую на размеченных целевых данных, благодаря способности использовать как размеченные исходные изображения, так и обилие неразмеченных целевых. Для неспециалистов посыл прост: позволяя детектору объектов организовать собственные внутренние «ориентиры» для каждой категории и аккуратно направляя обмен информацией между учителем и студентом, этот подход делает системы компьютерного зрения более надёжными, когда мир выглядит иначе, чем данные, на которых их обучали.

Цитирование: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7

Ключевые слова: неконтролируемая адаптация домена, детекция объектов, самообучение, контрастное обучение, обучение прототипов