Clear Sky Science · ru

Мягкое сглаженное контрастное обучение с гибридной памятью для неконтролируемой видимо-инфракрасной идентификации людей

2026-03-17 · Назад к списку

Видеть людей в темноте

Современные города испещрены камерами, но большинство из них плохо работает ночью или в плохую погоду. Инфракрасные камеры, которые фиксируют тепло, а не видимый свет, могут заполнить этот пробел. Задача — научить компьютеры распознавать одного и того же человека, когда он выглядит очень по‑разному для цветной камеры и для тепловизора, и при этом обойтись без ручной разметки тысяч изображений экспертами. В этой работе предложен новый способ автоматического обучения такому сопоставлению, что делает всесуточные системы охраны с уважением к приватности более практичными.

Сопоставление людей в двух совершенно разных мирах

Задача видимо‑инфракрасной переидентификации людей формулируется просто: зная человека на изображении обычной цветной камеры, можно ли найти того же человека в кадрах инфракрасной камеры, и наоборот? На практике два типа изображений различаются по цвету, контрасту и деталям, поэтому внутреннее представление человека моделью может расходиться в зависимости от типа камеры. Ранние системы часто опирались на большие наборы вручную размеченных изображений, где люди указывали, какие снимки принадлежат одному и тому же человеку. Это дорого и медленно, особенно в многокамерных сетях на больших территориях — кампусах, аэропортах или городских кварталах.

Обучение без меток человека

Авторы сосредотачиваются на более сложном «неконтролируемом» варианте задачи, где нет истинных меток идентичности. Вместо этого алгоритм сначала группирует похожие изображения в кластеры, рассматривая каждый кластер как будто это один человек. Такие предположительные идентичности называются псевдонизами. Они используются в популярной стратегии обучения — контрастном обучении, где модель сближает представления изображений из одного кластера и раздвигает представления разных кластеров. Но кластеризация далека от идеала: люди в похожей одежде могут перепутаться, а разрыв между видимыми и инфракрасными видами приводит к дополнительным ошибкам. Как только такие неправильные догадки закрепляются в обучении, они могут ввести модель в заблуждение и снизить её надёжность.

Сглаживание шумных угадываний

Чтобы усмирить ошибочные псевдой метки, статья вводит схему «мягкого сглаженного» контрастного обучения, которая использует две сотрудничающие нейронные сети — студент и учитель. Студент обновляется обычным образом в ходе обучения, а учитель представляет собой медленно обновляющееся среднее параметров студента. Для каждого изображения учитель выдаёт мягкую вероятностную оценку соответствия каждому кластеру, а не жёсткое да/нет. Эта мягкая оценка затем смешивается с более жёстким присвоением кластера студентом. В результате получается сглаженная цель, которая смягчает неопределённые решения и усиливает вклад более надёжных. По сути модель учится полагаться на устоявшиеся тенденции с течением времени, а не резко реагировать на каждый шумный апдейт.

Запоминание различий и общего

Вторая ключевая идея — «гибридная память», которая хранит накопленные знания системы. Традиционные методы ведут отдельные памяти для видимых и инфракрасных изображений: это фиксирует различия, но затрудняет выделение общего между двумя режимами. Здесь авторы сохраняют эти две памяти, а также строят третью — смешанную память, которая объединяет наиболее похожие видимые и инфракрасные примеры. Эта гибридная память служит местом встречи, поощряя сеть выявлять признаки человека, устойчивые к изменениям освещения и сенсора — например общую форму тела или расположение одежды, а не цвет. Ещё один компонент, адаптивное обновление весов памяти, придаёт больший вес необычным но надёжным примерам и меньший — неоднозначным, так что память эволюционирует в сторону более чётких и глобально полезных представлений.

Проверка метода

Команда оценила предложенный подход, названный Soft Smooth Contrastive Learning with Hybrid Memory (SCLHM), на трёх широко используемых наборах данных, содержащих видимые и инфракрасные кадры, собранные несколькими камерами в реалистичных условиях. Они сравнили свою систему со множеством существующих методов, включая те, что используют полную разметку людьми, и те, что работают с частичными или вовсе без меток. Во всех случаях SCLHM демонстрирует передовое качество среди методов без меток и в ряде сценариев приближается к, а иногда и конкурирует с методами, основанными на ручной аннотации. Дополнительные эксперименты показывают, что каждая из трёх частей — мягкое сглаживание, гибридная память и адаптивное обновление — вносит заметный вклад в итоговую точность.

Яснее видеть в любое время суток

Для неспециалиста ключевая мысль в том, что авторы создали способ, позволяющий компьютерам самостоятельно учиться распознавать людей между дневными и ночными камерами без необходимости, чтобы люди указывали, кто есть кто. Сглаживая ненадёжные догадки и аккуратно сочетая то, что уникально для каждого типа камеры, с тем, что их объединяет, их подход выявляет более стабильные и общие закономерности. Это делает отслеживание людей в сложных условиях с низким освещением более точным и масштабируемым, что может принести пользу системам безопасности, управлению движением и другим приложениям, требующим надёжного круглосуточного визуального контроля.

Цитирование: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

Ключевые слова: идентификация человека, инфракрасная съёмка, неконтролируемое обучение, контрастное обучение, видеонаблюдение