Clear Sky Science · ja

WMambaFuse: ウェーブレット・マンバに基づく赤外線と可視画像の融合ネットワーク

· 一覧に戻る

雑音の多い世界でより鮮明なナイトビジョン

可視光と赤外線で同じシーンを撮影すると、それぞれ異なる情報が現れます。可視画像は細かなディテールや色を示し、赤外画像は暗闇の中の熱源や隠れた物体を浮かび上がらせます。本論文は WMambaFuse を紹介します。これはこれら二つの視点を一つのより明瞭な画像に融合する新しいコンピュータビジョン手法です。目的は明快かつ強力です:夜間や悪天候、複雑な環境において、人や機械が両種類の画像の利点を組み合わせることでより確実に視認できるようにすることです。

Figure 1
Figure 1.

なぜ二つの目は一つより優れているのか

可視光カメラは微細な質感、鋭いエッジ、自然な色を捉えますが、暗所、霧、または逆光では弱くなります。赤外線カメラは逆に熱を感知し、暗闇で人や車両、機材を明らかにできますが、しばしば画像はぼやけ、ディテールに欠けます。これら二つを融合すれば両方の利点が得られる可能性がありますが、バランスを取るのは難しい作業です。これまでの多くの手法は画像平面でのピクセルレベルの混合に注力するか、あるいは周波数ドメインだけで処理し、粗い形状と細かなパターンに分解します。実際には、一方のドメインにのみ留まるアプローチは全体構造か微細なディテールのどちらかを犠牲にしがちで、エッジの消失、質感の退色、複雑なシーンでの不安定な結果を招くことがあります。

より多くを視るための三部構成エンジン

WMambaFuse はこの課題に対し、エンコーダ、融合モジュール、デコーダという入念に重ねられた構成で取り組みます。エンコーダは最新の「ウィンドウ化」トランスフォーマを使い、複数のスケールでシーンを観察して近接の質感と広範な文脈の両方を捉えます。これは手作りのルールではなく学習により各入力画像の重要な特徴を表現するスマートな前処理と考えられます。デコーダはその後、再帰構造を用いて最終的な融合画像を再構成し、スケール間で特徴の一貫性を保ちつつ情報の流れでディテールを失わないようにします。これら二つの部分は、視覚情報を準備し再構築する高度に訓練された目と脳の役割を果たします。

空間とディテールを同時にブレンドする

核となる革新は融合モジュールにあり、「物の位置(どこにあるか)」と「どれほど詳細か(どんなディテールか)」を明示的に分離する点にあります。一方の枝は空間注意モジュールと呼ばれ、画像特徴を直接見て赤外と可視のどの領域により重点を置くべきかを決定します。人や車両のような明るい熱ターゲットを強調しつつ、可視側の細かな質感も保持することを学習します。もう一方の枝は周波数ドメインで動作し、画像特徴を滑らかな基底層と、水平方向・垂直方向・斜め方向の複数のエッジやテクスチャ層に分割します。ここで新しい Wavelet-Mamba メカニズムは、これらの方向別のディテールバンドを簡略化された状態空間モデルに通し、長距離のパターンを効率的に追跡して重要なエッジを強調しつつ、ノイズで画像を圧倒しないようにします。

Figure 2
Figure 2.

手法の実地検証

この設計が本当に有効かを評価するために、著者らはエンコーダ・デコーダを大規模で汎用の画像セットで学習させ、その後融合モジュールを赤外–可視のペアシーンで訓練しました。WMambaFuse を軍事シーン、道路、日常環境を含む三つの公開ベンチマークでテストし、古典的なオートエンコーダ、畳み込みネットワーク、トランスフォーマ、従来のマンバ型モデルを含む九つの主要な融合手法と比較しました。情報量、コントラスト、エッジの鮮明さ、入力源との構造的類似性など幅広い指標で、新手法は一貫して競合手法に匹敵または上回る結果を示しました。視覚的な例では、輪郭がより鮮明に、熱ターゲットがより明るく完全に表現され、背景の質感も良好に保持されていることが確認でき、夜間や低照度といった難しい状況でも優れた結果を示しました。

実世界タスク向けのより明瞭な融合画像

平たく言えば、WMambaFuse はいつ熱パターンを信頼すべきか、いつ可視のディテールを信頼すべきかを学び、それを画像平面とエッジや質感を符号化する隠れた周波数層の両方で行います。その結果、人物や物体の検出・追跡など下流タスクにとって解釈しやすく信頼性の高い単一の融合画像が得られます。著者らは、濃霧や激しい雨など極端な条件が今なお課題として残っていることを指摘していますが、彼らの空間–周波数設計は最新の状態空間モデリングにより、暗闇で明瞭に見る必要がある機械にとって堅牢な一歩を提供することを実験で示しています。

引用: Wang, J., Si, Y., Chen, Y. et al. WMambaFuse: an infrared and visible image fusion network based on wavelet mamba. Sci Rep 16, 14113 (2026). https://doi.org/10.1038/s41598-026-44374-y

キーワード: 赤外線・可視融合, ナイトビジョン撮像, ウェーブレットベースの画像融合, 状態空間ビジョンモデル, マルチモーダルコンピュータビジョン