Clear Sky Science · zh

一种基于VLM引导的网络耦合退化建模用于退化感知的红外与可见光图像融合

2026-02-11 · 返回目录

为嘈杂世界带来更清晰的夜视

现代相机能够在黑暗中成像、感知热量并监控道路——但拍摄结果常常远非完美。路灯会眩光、阴影吞没细节，传感器还会产生斑点噪声。本文提出了一种新的方法，将普通彩色视频与热成像红外图像融合，使得最终视图在两者都严重退化的情况下仍更清晰、更可靠。该方法有望提高自动驾驶、监控系统及其他智能摄像头在我们最需要的情形下的可靠性：夜间、恶劣天气和复杂的真实场景中。

双眼为何胜于单眼

可见光相机能捕捉人类熟悉的丰富色彩与质感，但在弱光、眩光和浓重阴影下表现不佳。相比之下，红外相机感知热量，能在黑暗中轻松辨别诸如行人或车辆等温暖目标，尽管其图像往往显得平坦并缺乏细节。红外与可见光图像融合旨在结合两者优势：保留红外的清晰轮廓和可见光的上下文细节与颜色。然而传统大多数融合方法假设输入图像已是干净且高质量的，这与街头、城市和工业场景中常见的模糊、噪声、昏暗照明和过曝等状况并不相符。

预处理为何力不从心

现有系统通常以两步互不关联的方式处理劣质图像。首先使用独立的增强工具提亮暗场、降低噪声或校正对比度，然后再由融合网络合并这些改进后的图像。这种两阶段方法存在若干缺点：工程师需要为每种缺陷和每种传感器选择并调优不同的增强工具，使工作流程变得脆弱且复杂。更重要的是，单独清理阶段丢失或扭曲的信息在后续融合阶段无法恢复。近来有研究引入了针对某一类退化专门调优的网络，或使用语言引导模型来处理单一退化模态。但当红外与可见光图像同时退化——且常以不同方式退化时——这些策略仍高度依赖手工预处理，并难以应对混合的真实世界条件。

理解退化的融合网络

作者提出了VGDCFusion，一种将退化处理直接编织进融合过程的新深度学习框架。关键思想是用语言告知网络应预期哪些问题，并将在每一步特征提取与融合中利用这些信息。简短的文本提示描述任务（红外—可见融合）及存在的具体问题，如弱光、过曝、低对比度或噪声。一个强大的视觉—语言模型——在理念上类似于CLIP之类的系统——将这些提示转换为紧凑的数值描述符。这些描述符指导两个主要构建模块：分别在每个模态上运行的特定提示退化耦合提取器（SPDCE），以及在融合时跨模态混合信息并关注残余退化的联合提示退化耦合融合器（JPDCF）。

引导融合过程如何工作

在每个SPDCE模块内部，来自提示的引导促使网络关注重要特征并远离伪影。多尺度卷积层查看局部邻域以保留边缘和纹理，而Transformer层则捕获更大尺度的结构与语境。两者协同学习，例如在嘈杂的红外帧中突出重要的热特征，或在曝光不足的可见图像中找出微弱的道路标记，同时抑制传感器噪声与照明缺陷。并行地，JPDCF模块在提示引导下将两条分支的清理后特征进行组合。它们使用空间与通道注意力强调信息丰富的区域、过滤剩余的退化，并将互补信息融合——例如将行人的明亮红外轮廓与可见相机的颜色和背景结构对齐——然后重建出融合的三通道输出图像。

方法验证

为展示其实用性，研究团队在若干公开数据集上评估了VGDCFusion，这些数据集包含弱光和过曝的可见图像以及噪声或低对比度的红外图像。他们将该方法与一系列最先进的融合技术进行了比较，涵盖自编码器、卷积网络、对抗生成网络和Transformer。使用标准图像质量度量，VGDCFusion在融合图像的边缘清晰度、对比度和自然色彩方面持续表现更好，即便竞争方法享有精心调优的预处理优势。在严重退化场景中，新方法在关键指标上平均提升约15%。当将融合图像输入主流目标检测系统时，其检测准确率也高于仅使用红外或可见图像，或使用其他融合网络时的结果。

为更安全的系统带来更清晰的视觉

通俗地说，这项工作表明：告诉图像融合网络应预期哪些视觉问题，并让其以紧密耦合的方式在同一步骤中修复与融合，可以比将增强与融合分开处理得到更干净、更有信息量的图像。通过将退化建模与融合过程耦合并在每一层使用语言引导信号，VGDCFusion能够在无需频繁人工重调的情况下适应多样且混合的图像退化形式。这种智能的、感知退化的融合方式可助力未来的视觉系统——从自动驾驶汽车到安防摄像头——在真实世界中混乱、不完美的条件下更可靠地“看见”。

引用: Zhao, J., Zhang, T. & Cui, G. A VLM guided network coupling degradation modeling for degradation aware infrared and visible image fusion. Sci Rep 16, 8249 (2026). https://doi.org/10.1038/s41598-026-38181-8

关键词: 红外与可见光融合, 弱光成像, 视觉-语言模型, 图像退化, 自动驾驶感知