Clear Sky Science · ru

Слияние инфракрасных и видимых изображений через визуальное улучшение и семантическую связь

2026-01-18 · Назад к списку

Более чёткое зрение дневных и ночных камер

Современные автомобили, дроны и системы безопасности часто оснащены двумя типами «глаз»: обычной камерой, регистрирующей цвет и текстуру, и инфракрасной камерой, фиксирующей тепло. У каждой из них есть сильные и слабые стороны, и объединить их в одно предельно информативное изображение оказывается неожиданно сложно. В этой статье предлагается новый способ слияния двух видов изображения в одно, которое не только приятнее смотреть, но и легче воспринимается машинными алгоритмами.

Почему два глаза лучше, чем один

Камеры видимого света захватывают чёткие детали, такие как дорожная разметка, контуры зданий и одежда, но испытывают трудности ночью, в тумане или когда объекты сливаются с фоном. Инфракрасные камеры работают наоборот: они выделяют тёплые объекты, например людей и транспорт, даже в темноте, однако их снимки выглядят размытыми и лишёнными мелких деталей. Слияние этих двух представлений в одно изображение «лучшего из обоих миров» полезно для задач от обнаружения пешеходов в системах помощи водителю до наблюдения и поисково-спасательных операций. Тем не менее многие существующие методы фокусируются лишь на поверхностных признаках — ярких пятнах инфракрасных кадров и текстурах видимых изображений — игнорируя более глубокое, сценическое значение, важное для интеллектуальных систем.

Более умный способ комбинировать изображения

Авторы предлагают архитектуру глубокого обучения, рассматривающую слияние не как простое наложение. Сначала специальный шаг улучшения осветляет и выравнивает видимое изображение, особенно в условиях низкой освещённости, чтобы важные детали не терялись ещё до начала слияния. Затем двухпутевая сеть обрабатывает инфракрасный и видимый потоки параллельно. Один путь сосредоточен на локальных паттернах — краях и текстурах, а другой анализирует более широкий контекст сцены. Комбинируя эти пути, система формирует более богатое внутреннее представление происходящего на изображениях.

Обучая сеть тому, на что стоит обращать внимание

Просто извлечь множество признаков недостаточно — сети нужно научиться выделять важные из них. Модуль «канал–пространство» помогает модели акцентировать критические области и типы информации, такие как пешеходы или яркие фары, одновременно уменьшая значимость фоновых помех. Поверх этого, бимодальный механизм интерактивного внимания поощряет взаимодействие инфракрасного и видимого потоков. Он обучается соотносить тепловые сигнатуры и визуальные текстуры по всей сцене, улавливая более высокоуровневые концепты вроде «это яркое пятно в инфракрасном изображении соответствует тому человеку на видимом снимке». Такая семантическая связь делает результирующее изображение логически согласованным, а не просто визуально смешанным.

Проверка метода на практике

Чтобы убедиться, что объединённые изображения не только приятны внешне, но и реалистичны, авторы добавляют дискриминаторную сеть, аналогичную тем, что используются в генеративно-состязательных сетях. Эта дополнительная сеть учится отличать реальные видимые изображения от сгенерированных, подталкивая процесс слияния к созданию результатов, выглядящих естественно как для людей, так и для машин. Метод обучали и тестировали на трёх сложных наборах пар инфракрасных и видимых изображений, охватывающих дневные и ночные дороги, а также сцены военного типа. По ряду стандартных метрик качества новый подход в целом превосходит десять существующих методов слияния, давая изображения с более чёткими краями, лучшей контрастностью и более информативным содержанием.

Лучшие изображения — для более безопасных машин

Помимо визуального качества, авторы ставят практический вопрос: помогают ли эти объединённые изображения компьютерам принимать более корректные решения? С использованием популярной системы обнаружения объектов для поиска пешеходов они показывают, что их слияния повышают точность обнаружения по сравнению как с изображениями от одного сенсора, так и с ранними методами слияния. Проще говоря, техника создаёт кадры, которые легче интерпретировать и людям, и алгоритмам, особенно в сложных условиях, например при ночной езде. Хотя системе ещё требуется доработка для работы в реальном времени на ограниченных по ресурсам устройствах, она представляет собой многообещающий шаг к более надёжному и безопасному восприятию в автоматизированных транспортных средствах, системах наблюдения и других технологиях, которым важно «видеть» тогда, когда это наиболее необходимо.

Цитирование: Yang, Y., Li, Y., Li, J. et al. Infrared and visible image fusion via visual enhancement and semantic coupling. Sci Rep 16, 5666 (2026). https://doi.org/10.1038/s41598-026-35763-4

Ключевые слова: слияние изображений, инфракрасная визуализация, видение в условиях низкой освещённости, глубокое обучение, обнаружение объектов