Clear Sky Science · ru
WMambaFuse: сеть слияния инфракрасных и видимых изображений на основе вейвлет‑мамбы
Более чёткое ночное зрение в шумном мире
Когда камеры снимают одну и ту же сцену в видимом свете и в инфракрасном диапазоне, каждый вид открывает разные стороны реальности: один показывает ясные детали и цвет, другой подчёркивает тепло и скрытые объекты в темноте. В этой статье представлен WMambaFuse — новый метод компьютерного зрения, который объединяет эти две перспективы в одно, более информативное изображение. Цель проста, но значима: помочь людям и машинам видеть надёжнее ночью, в плохую погоду и в сложных условиях, комбинируя сильные стороны обоих типов изображений.

Почему два глаза лучше, чем один
Камеры видимого света фиксируют тонкую текстуру, чёткие контуры и естественные цвета, но слабнут при низкой освещённости, в тумане или при засветке. Инфракрасные камеры делают обратное: они регистрируют тепло и могут выявлять людей, транспорт или оборудование в темноте, однако их изображения часто бывают размытыми и бедными по деталям. Слияние этих двух источников обещает объединить лучшее из обоих миров, но требует тонкого баланса. Многие ранние системы либо работают на уровне пикселей в пространственной плоскости, либо полностью в частотной области, где изображение разбивается на грубые формы и тонкие паттерны. На практике подходы, работающие только в одной области, склонны жертвовать либо глобальной структурой, либо мелкими деталями, что приводит к потерянным краям, выцветшей текстуре или нестабильным результатам в сложных сценах.
Трёхзвенная схема для более полного зрения
WMambaFuse решает эту задачу с помощью тщательно слоённой архитектуры: энкодера, модуля слияния и декодера. Энкодер использует современный «оконный» трансформер для анализа сцены на нескольких масштабах, улавливая и близкую текстуру, и более широкий контекст. Можно представить его как интеллектуальный передний блок, который учится представлять важные признаки каждого входного изображения без ручных правил. Декодер затем восстанавливает итоговое слитое изображение с помощью рекуррентной структуры, что помогает сохранять согласованность признаков на разных масштабах и не терять детали при прохождении информации через сеть. Вместе эти два блока работают как высококвалифицированное «глазо‑мозговое» устройство, подготавливающее и восстанавливающее визуальную информацию.
Одновременное сочетание пространства и деталей
Ключевое новшество заключается в модуле слияния, который явно разделяет «где находятся объекты» и «насколько они детализированы». Одна ветвь, названная модулем пространственного внимания, смотрит непосредственно на признаки изображения и решает, какие области из инфракрасного и видимого входов заслуживают большего акцента. Она учится выделять яркие тепловые цели, такие как люди или транспорт, одновременно сохраняя тонкую текстуру видимого изображения. Вторая ветвь работает в частотной области, разбивая признаки изображения на гладкий базовый слой и несколько слоёв краёв и текстур по горизонтали, вертикали и диагонали. Здесь новая волновая (Wavelet‑Mamba) механизм пропускает эти направленные полосы деталей через оптимизированную модель пространства состояния, которая эффективно отслеживает дальнодействующие закономерности, усиливая важные края, не перегружая изображение шумом.

Испытание метода
Чтобы проверить, действительно ли такая архитектура помогает, авторы обучили энкодер‑декодер на большой универсальной коллекции изображений, а затем обучили модуль слияния на парных инфракрасно‑видимых сценах. Они протестировали WMambaFuse на трёх общедоступных бенчмарках, охватывающих военные сцены, дороги и повседневные окружения, и сравнили его с девятью ведущими методами слияния, включая подходы на базе классических автоэнкодеров, сверточных сетей, трансформеров и ранних моделей в стиле Mamba. По широкому набору метрик — общая информация, контраст, чёткость краёв и структурное сходство с источниками — новый метод последовательно сравнялся с лучшими или превосходил конкурентов. Визуальные примеры демонстрируют более чёткие контуры, ярче и полнее переданные тепловые цели и лучше сохранённые фоновые текстуры, даже в сложных ночных и слабоподсвеченных условиях.
Более чистые слитые изображения для реальных задач
Проще говоря, WMambaFuse учится, когда доверять тепловым закономерностям, а когда — деталям видимого изображения, и делает это как в пространственной плоскости, так и в скрытых частотных слоях, кодирующих края и текстуры. В результате получается одно объединённое изображение, которое легче интерпретировать человеку и надёжнее для последующих задач, таких как обнаружение целей или слежение. Авторы отмечают, что экстремальные условия, например плотный туман или сильный дождь, по‑прежнему остаются сложными, но их эксперименты показывают, что такое пространственно‑частотное строение, усиленное современным моделированием пространств состояния, представляет собой устойчивый шаг вперёд для систем, которым нужно ясно видеть в темноте.
Цитирование: Wang, J., Si, Y., Chen, Y. et al. WMambaFuse: an infrared and visible image fusion network based on wavelet mamba. Sci Rep 16, 14113 (2026). https://doi.org/10.1038/s41598-026-44374-y
Ключевые слова: слияние инфракрасных и видимых изображений, ночная визуализация, слияние изображений на основе вейвлетов, модели зрения на основе пространств состояния, мультимодальное компьютерное зрение