Clear Sky Science · ru
Многоуровневый сквозной метод улучшения и слияния видимых и инфракрасных изображений
Более чёткое ночное видение для людей и машин
Каждый, кто пытался сделать снимок ночью, знает, как быстро тьма разрушает детали: кадры становятся зернистыми, размытыми и с искаженными цветами. Вместе с тем многие критически важные технологии — от уличных камер и систем домашней безопасности до автопилотов и спасательных дронов — должны «видеть» именно в таких условиях. В этой статье предложен новый способ объединения обычных цветных камер с инфракрасными «тепловыми» камерами, чтобы компьютеры, а в конечном счёте и люди, могли получать яркие, детализированные изображения мира даже в условиях почти полной темноты.

Почему два типа камер лучше, чем одна
Стандартные камеры фиксируют тот же диапазон света, что и наши глаза, поэтому их снимки легко интерпретировать человеку, но при слабом освещении они дают сбои: тени поглощают детали, появляется шум, цвета искажаются. Инфракрасные камеры делают противоположное: они улавливают тепловые шаблоны, обнаруживая людей, животных и транспорт в темноте или сквозь лёгкий туман, но их изображения лишены тонких текстур и естественного внешнего вида. Исследователи давно пытаются слить эти два вида изображения в одно, которое выглядело бы как чёткая цветная фотография, но при этом выявляло бы тёплые объекты. Однако существующие методы часто рассматривают каждую задачу — осветление тёмных изображений, очистку от шума и объединение инфракрасной информации — отдельно. Такой поэтапный подход может приводить к несоответствию признаков и неудовлетворительным результатам слияния.
Единая конвейерная схема для осветления и слияния
Авторы предлагают сквозную систему, которая улучшает и сливает изображения в одном непрерывном конвейере. В её основе — нейронная сеть с четырьмя основными частями: одна ветвь учится очищать и осветлять низкоосвещённые цветные изображения, другая — представлять сцену из инфракрасной камеры, блок слияния объединяет представления обеих ветвей, а декодер восстанавливает итоговое изображение из этих смешанных сигналов. Важно, что система работает на нескольких масштабах — от грубых очертаний до тонких текстур. Поверхностные слои сохраняют края и детали поверхностей, такие как кирпичи или дорожная разметка, тогда как более глубокие слои фиксируют крупные структуры — здания, машины или деревья — и расположение тёплых целей на инфракрасном изображении.
Три этапа обучения вместо одного большого шага
Вместо того чтобы обучать всю систему сразу, команда использует трёхэтапную стратегию обучения, ориентированную на стабильность и точность. На первом этапе сеть видит только тёмные видимые фотографии и учится осветлять их без опоры на «идеальные» эталонные изображения, предоставленные человеком. Тщательно подобранные функции потерь направляют выход так, чтобы он имел естественную яркость, устойчивые цвета, плавные области без пятнистого шума и сохранённую текстуру. На втором этапе повторно используется тот же декодер, а новая инфракрасная ветвь обучается достоверно восстанавливать инфракрасные изображения, обучая сеть тому, как выглядят тепловые шаблоны. На третьем этапе все эти выученные части фиксируются, и только блок слияния обучается смешивать два представления в единое высококачественное изображение, сочетающее яркость и информационную насыщенность.

Проверка метода на практике
Исследователи оценили свой подход на публичных наборах данных с парами видимых и инфракрасных изображений, сделанных в сложных условиях освещения, например ночными улицами. Они сравнили метод с несколькими ведущими техниками слияния, включая подходы на основе классических преобразований изображений, стандартных сверточных сетей и более сложных генеративных моделей. Их метод в целом давал более чёткие детали, равномерную яркость и более ясно выделял тепловые цели, а также показывал более высокие количественные показатели информационной насыщенности, резкости краёв, структурного сходства и контраста. Дополнительные эксперименты, в которых выборочно исключали ключевые компоненты системы, показали, что каждая часть — многоуровневый блок слияния, поэтапное обучение и адаптивное взвешивание видимых и инфракрасных признаков — вносит измеримый вклад в итоговое качество.
Что это значит для реальных систем машинного зрения
Для неспециалистов итог прост: работа демонстрирует, что одна тщательно обученная сеть может одновременно осветлять тёмные сцены и разумно объединять тепловые и цветовые представления в одно согласованное изображение. Получаемые снимки сохраняют тонкие текстуры и одновременно подчёркивают тёплые объекты, делая их гораздо более полезными для задач вроде ночного наблюдения, помощи водителю и дополненной или виртуальной реальности в слабо освещённых условиях. Хотя авторы отмечают некоторые оставшиеся проблемы — например снижение контраста в очень ярких областях и необходимость более быстрых и лёгких моделей — их подход представляет собой значительный шаг к камерам, которые надёжно «видят» в темноте и дают естественно интерпретируемое изображение для человека.
Цитирование: Xin, Y., Huang, J., Sun, C. et al. A multi-scale end-to-end visible and infrared image enhancement fusion method. Sci Rep 16, 7135 (2026). https://doi.org/10.1038/s41598-026-38323-y
Ключевые слова: улучшение изображений при низкой освещённости, слияние инфракрасных изображений, ночное видение, мультисенсорная визуализация, глубинное обучение в зрении