Clear Sky Science · ru

Алгоритм слияния инфракрасных и видимых изображений на основе NSCT и улучшенной FT‑детекции салентности

2026-02-03 · Назад к списку

Видеть в темноте и сквозь завесу

Современные камеры дают нам чёткие, красочные изображения мира, но они испытывают затруднения в тумане, темноте или при ослепляющем освещении — именно тогда, когда нам особенно нужна надёжная визуальная информация для вождения, наблюдения, поисково‑спасательных операций или работы дронов. Инфракрасные датчики, которые фиксируют тепло вместо цвета, превосходят в таких тяжёлых условиях, но выдают более размытые, низкодетализованные кадры. В этой работе предложен способ интеллектуального объединения инфракрасных и видимых изображений, чтобы итоговое изображение сохраняло чёткие детали и одновременно явно выделяло людей или объекты, даже в сложных сценах.

Почему два «глаза» лучше, чем один

Камеры видимого света фиксируют тонкие текстуры и богатые фоны, но их эффективность падает ночью или в сильной тени, а цели могут сливаться с однотонной окружающей средой. Инфракрасные камеры поступают наоборот: они выявляют тёплые тела и излучающие тепло объекты на тёмном фоне при любом освещении, но теряют много тонкой структуры зданий, деревьев и дорог. Слияние этих двух типов изображений теоретически может дать лучшее из обоих миров. Однако многие существующие методы слияния либо теряют контраст, размывают границы объектов, либо позволяют шумовым инфракрасным паттернам заглушать полезные детали с видимого изображения.

Главная идея: позволить важному выделяться

Авторы рассматривают слияние как задачу разрешения конфликтов между двумя типами изображений. Они сосредотачиваются на трёх повторяющихся проблемах: определении действительно значимых областей («салентности»), уравновешивании общей яркости между горячими инфракрасными целями и ярким видимым фоном, а также сохранении тонких текстур при подавлении инфракрасного шума. Для этого они дорабатывают популярную технику детекции салентности на основе frequency‑tuned подхода, которая пытается имитировать восприятие человека, выделяя области, естественно привлекающие внимание. Вместо простой размытия они используют пару более умных фильтров — один сглаживает, сохраняя края, другой повышает контраст — чтобы получить более чистую, резкую карту интересных инфракрасных целей.

Разделение грубых форм и тонких деталей

Когда алгоритм определяет ключевые инфракрасные цели, он разбивает и инфракрасное, и видимое изображения на слои, которые отделяют крупные структуры от мелких деталей с помощью математического инструмента Non‑Subsampled Contourlet Transform. Низкочастотные слои содержат широкие паттерны яркости, такие как небо, дороги или стены, в то время как высокочастотные слои фиксируют края, текстуры и мелкие элементы. Для грубых слоёв метод смешивает информацию с учётом улучшенной карты инфракрасной салентности и меры резкости локальных структур на основе лапласиана. Это помогает избежать «вымытости», когда либо тёплые объекты доминируют в сцене, либо видимый фон заглушает важные цели.

Сохранение чёткости текстур, контроль шума

Высокочастотные слои требуют иной стратегии, поскольку именно там сосуществуют полезные текстуры и отвлекающий шум. Метод сначала выбирает в каждой области тот сенсор, который даёт более сильные локальные детали. Затем он уточняет этот первоначальный выбор с помощью процедуры взвешенных наименьших квадратов, которая отдаёт предпочтение более чистым и информативным текстурам видимого света, при этом позволяя проходить значимым инфракрасным паттернам. В результате получается слияние, где ветки деревьев, кромки зданий и дорожная разметка выглядят чёткими, а пятнистые инфракрасные артефакты сокращены.

Лучшие изображения — лучшие машинные решения

Команда протестировала подход на нескольких публичных наборах данных и собственных снимках при слабом освещении, сравнив его с традиционными методами и современными подходами глубокого обучения. Визуальная оценка показала, что их слияние даёт более ясные фоны, лучший контраст и более заметные цели, особенно в тёмных коридорах, ночных улицах и загромождённых уличных сценах. Объективные метрики содержания информации, резкости и контраста в основном были в пользу нового метода или указывали на его сбалансированность по разным показателям. Важно, что при подаче этих объединённых изображений в популярную систему обнаружения объектов (YOLOv5s) точность обнаружения, precision и recall заметно улучшились. Проще говоря, алгоритм не только делает более привлекательные изображения — он также помогает автоматическим системам надёжнее находить людей и объекты. Это позволяет предположить, что более совершенное слияние инфракрасной и видимой информации может сыграть ключевую роль в более безопасном автономном вождении, эффективном наблюдении и надёжной работе роботов в тёмное или визуально сложное окружение.

Цитирование: Fan, X., Kong, F., Shi, H. et al. Infrared and visible image fusion algorithm based on NSCT and improved FT saliency detection. Sci Rep 16, 7144 (2026). https://doi.org/10.1038/s41598-026-37670-0

Ключевые слова: слияние инфракрасного и видимого, визуальная заметность изображения, многосенсорная съёмка, ночное видение, компьютерное зрение