Clear Sky Science · zh

具有双重注意机制和自适应交互损失的红外可见光图像融合

2026-04-03 · 返回目录

看到比单一相机更多的内容

想象在一个有雾的夜晚开车，你的肉眼和热成像相机各自捕捉到场景的不同部分。一种显示出人的体温和车辆的热亮点，另一种则揭示车道标记、建筑物和标志。该研究阐述了一种将这两种视角融合为单一、更清晰图像的新方法，可帮助人类和机器在复杂的户外环境中更好地观察。

Figure 1. 将基于热辐射和普通相机视角合并为一个更清晰的场景，以改善户外视觉感知。

为什么两类图像都很重要

可见光相机以类似我们眼睛的方式捕捉世界，具有清晰的细节和丰富的纹理。红外相机捕捉热量，因此在黑暗、雾或眩光中，发热的引擎、人或动物会显现为亮的形状。单一视角各有不足：可见光图像在恶劣天气或低光条件下可能丢失重要目标，而红外图像通常较为模糊、缺乏细节。将它们合成为既保留清晰纹理又突显热信号的图像，对监控、遥感和自动驾驶等任务具有重要价值。

融合不同视角的挑战

多年来，研究者开发了许多学习型程序来融合红外与可见光图像。许多现代方法采用深度学习，让计算机自动判定保留哪些特征以及如何混合它们。注意力机制是一种流行思路，可以让网络关注图像中最重要的部分。但早期系统要么仅关注各自图像内部，要么在混合时缺乏足够的控制，导致一侧的细节淹没了另一侧的独特信号，或最终图像变得平淡且信息量不足。

双向的注意力机制

作者提出了围绕双重注意力构建的新型融合模型。首先，网络在每幅图像内分别观察以理解其自身的模式和结构，例如边缘、纹理和热目标。随后进行跨注意力操作，让红外与可见视角互相作用与引导，使匹配区域能够共享有用信息。这些步骤由一种现代模块Swin Transformer处理，它将图像划分为小块并考察远处区域之间的关系。在这两步特征提取之后，另一个注意力模块将组合特征混合为单一表示，最终被重建为图像。

Figure 2. 分步骤混合热区与细节区，使每幅图像在最具信息性的区域发挥主导作用。

让数据决定谁在主导

该工作的一项关键思想是，两台相机之间的权衡应随图像位置而变化。在某些区域，基于热量的形状更为重要，例如人站在复杂背景前；在其他区域，可见光纹理更为关键，如道路标记或建筑边缘。作者设计了一种自适应训练规则，评估每个小块中每台相机的视觉活跃度，然后自动调整该小块在学习过程中的影响力度。这引导网络在局部突出更有信息来源，而不是在全图范围内强制相等权重。

新方法的表现如何

团队在两组标准的户外场景数据集上测试了他们的方法，这些场景包含道路、车辆、行人和复杂背景。他们与来自不同深度学习分支的七种主流融合技术进行了对比。视觉观察和多项数值指标均表明，新方法生成的图像具有更高的对比度、更清晰的边缘和更丰富的细节，同时仍保留关键的热目标。进一步的消融实验（去掉或修改模型的部分组件）也确认了跨注意力设计和自适应训练规则在提升结果中都起着关键作用。

这对现实世界视觉的意义

给非专业读者的结论很直接。通过教会计算机不仅同时观察两台相机，而且以一种细致的、依赖位置的方式管理它们相互影响，该方法比早期方法生成了更清晰的融合图像。这能帮助人类与自动化系统在复杂条件下更容易发现重要目标，同样的理念也可能推动未来融合其他类型传感器数据的工具发展。

引用: Wang, Z., Hu, Y. & Zhang, B. Infrared-visible image fusion with double-attention mechanism and adaptive interaction loss. Sci Rep 16, 15941 (2026). https://doi.org/10.1038/s41598-026-45802-9

关键词: 图像融合, 红外成像, 计算机视觉, 注意力网络, 自动驾驶