Clear Sky Science · ru

Слияние инфракрасных и видимых изображений с двухсторонним механизмом внимания и адаптивной функцией потерь взаимодействия

2026-04-03 · Назад к списку

Видеть больше, чем одна камера

Представьте, что вы едете в туманную ночь: ваши глаза и тепловая камера фиксируют разные части сцены. Одна показывает яркое тепло от людей и машин, другая — дорожную разметку, здания и знаки. В этом исследовании описан новый способ объединить эти два вида в одно более ясное изображение, которое помогает людям и машинам лучше ориентироваться в сложных уличных условиях.

Figure 1. Объединение теплового и обычного камерного обзора в одну более ясную сцену для улучшения видимости на улице.

Почему важны два типа изображений

Камеры в видимом диапазоне снимают мир так, как видит человек: с чёткими деталями и богатой текстурой. Инфракрасные камеры фиксируют тепло, поэтому тёплые объекты — двигатели, люди или животные — видны даже в темноте, тумане или при засветке. Каждое изображение по‑отдельности неполно. Видимые кадры теряют важные объекты при плохой погоде или слабом освещении, тогда как инфракрасные часто бывают размыты и лишены тонких деталей. Объединить их в одно изображение, сохраняющее и чёткие текстуры, и выделенные тепловые сигналы, полезно для задач наблюдения, дистанционного зондирования и автономных автомобилей.

Задача смешивания разных представлений

Много лет исследователи создают алгоритмы, которые учатся сливать инфракрасные и видимые изображения. Многие современные подходы используют глубокое обучение, где система сама определяет, какие признаки сохранить и как их смешать. Популярная идея — внимание, позволяющее сети фокусироваться на наиболее значимых частях изображения. Но прежние системы либо анализировали каждое изображение отдельно, либо смешивали их без достаточного контроля. В результате важные детали с одной камеры могли подавлять уникальные сигналы другой, а итоговое изображение становилось тусклым и менее информативным.

Внимание в двух направлениях

Авторы предлагают новую модель слияния, основанную на идее двойного внимания. Сначала сеть изучает каждое изображение отдельно, чтобы понять его собственные структуры и паттерны — края, текстуры и горячие объекты. Затем выполняется перекрёстное внимание, где инфракрасный и видимый каналы взаимодействуют и направляют друг друга, позволяя совпадающим регионам обмениваться полезной информацией. Эти этапы реализованы с помощью современного блока — Swin Transformer, который разбивает изображение на мелкие патчи и анализирует взаимосвязи между удалёнными областями. После двухэтапного извлечения ещё один блок внимания смешивает объединённые признаки в единое представление, из которого затем восстанавливается изображение.

Figure 2. Пошаговое смешивание тепловых и детализированных областей так, чтобы каждое изображение доминировало там, где оно наиболее информативно.

Пусть данные решают, кто ведёт

Ключевая идея работы в том, что баланс между двумя камерами должен варьироваться по всему изображению. В одних регионах важнее тепловые очертания — например, человек на фоне сложной сцены. В других — видимая текстура, как дорожная разметка или контуры зданий. Авторы разрабатывают адаптивное правило обучения, которое измеряет визуальную активность каждой камеры в каждом маленьком патче изображения и автоматически изменяет силу влияния этого патча на процесс обучения. Это направляет сеть выделять тот источник, который локально более информативен, вместо принудительного равного веса повсеместно.

Насколько хорошо работает новый метод

Команда тестирует метод на двух стандартных наборах уличных сцен с дорогами, транспортом, людьми и сложными фонами. Их сравнивают с семью передовыми методиками слияния из разных семей глубокого обучения. Как при визуальном осмотре, так и по нескольким численным метрикам показано, что новый подход даёт изображения с более высоким контрастом, более острыми краями и богатыми деталями, при этом сохраняя ключевые тепловые цели. Дополнительные эксперименты, где части модели удаляли или изменяли, подтверждают, что и перекрёстное внимание, и адаптивное правило обучения играют решающую роль в улучшении результатов.

Что это значит для прикладного зрения

Для широкого читателя вывод прост. Обучая систему не просто смотреть на две камеры, а управлять их взаимным влиянием в зависимости от местоположения в кадре, этот метод создаёт более чёткие объединённые изображения, чем ранние подходы. Это облегчает людям и автоматическим системам обнаружение важных объектов в сложных условиях, а те же идеи могут пригодиться при совмещении других типов сенсорных данных.

Цитирование: Wang, Z., Hu, Y. & Zhang, B. Infrared-visible image fusion with double-attention mechanism and adaptive interaction loss. Sci Rep 16, 15941 (2026). https://doi.org/10.1038/s41598-026-45802-9

Ключевые слова: слияние изображений, инфракрасная съемка, компьютерное зрение, сети внимания, автономное вождение