Clear Sky Science · zh

使用混合记忆的软平滑对比学习用于无监督可见光-红外人员重识别

· 返回目录

在黑暗中识别人群

现代城市布满了摄像头,但大多数在夜间或恶劣天气下表现欠佳。红外相机感知的是热量而非可见光,能够弥补这一空白。挑战在于教会计算机在白天可见光摄像机与热成像摄像机看到的同一人外观差异很大时仍能识别出同一人,而且不依赖专家为成千上万张示例图像标注身份。该研究提出了一种新的自动学习匹配方法,使全天候、兼顾隐私的安保系统更具可行性。

Figure 1
Figure 1.

在两种截然不同的图像间匹配人

可见光-红外人员重识别提出了一个听起来简单的问题:给定常规彩色摄像机看到的某人,能否在红外摄像机的画面中找到同一人,反之亦然?实际上,两类图像在颜色、对比度和细节上差异很大,导致计算机对同一人的内部表征在不同摄像机类型上出现偏移。早期系统通常依赖大量人工标注的图像,其中人类仔细指明哪些图片是同一人。对于像校园、机场或街区这样的大规模多摄像头网络,这种做法既昂贵又耗时。

在没有人工标签下学习

作者聚焦于更困难的“无监督”版本问题,即没有真实身份标签提供。计算机首先将看起来相似的图像聚为簇,将每个簇视作可能的一个人。这些猜测出的身份称为伪标签。伪标签驱动了一种流行的训练策略——对比学习,模型在内部表征上拉拢来自同一簇的图像、推开不同簇的图像。但聚类远非完美:穿着相似衣物的人可能被混淆,可见光与红外视图间的差异又会引入额外错误。一旦这些错误猜测被纳入训练,就可能误导模型并降低其可靠性。

平滑处理嘈杂的猜测

为抑制这些错误的伪标签,论文提出了一种“软平滑”对比学习方案,采用两个协同工作的神经网络:学生网络和教师网络。学生在训练过程中按常规更新,而教师是学生参数的慢速移动平均。对于每张图像,教师输出一种温和的概率式评估,表示其属于各个簇的程度,而不是做出硬性的二元决定。然后将这种软评估与学生的更确定性的簇分配混合。得到的目标是被平滑处理的,能够削弱不确定决定的影响并增加更可靠判断的权重。实际上,模型学会信任随时间积累的渐进趋势,而不是对每一次嘈杂的更新做出剧烈反应。

兼顾差异与共同特征的记忆

第二个关键思想是引入一种“混合记忆”来存储系统迄今学到的内容。传统方法为可见光和红外图像分别维护独立记忆,这有助于记录差异,但不利于提炼两者共享的特征。在这里,作者保留了这两种记忆,同时还构建了第三种记忆:将最相似的可见光和红外样本混合的融合记忆。这个混合记忆充当交流场所,鼓励网络发现那些跨光照和传感器稳定的特征,例如整体体型或服饰布局,而非颜色。第三个组件——自适应权重的记忆更新——对异常但可信的样本赋予更大影响,对模糊样本赋予更小影响,使记忆朝着更清晰、更具全局适用性的表征演化。

Figure 2
Figure 2.

方法验证

团队在三组广泛使用的数据集上评估了他们的方法,数据集中包含在真实场景下由多摄像头采集的可见光与红外画面。他们将系统(称为带混合记忆的软平滑对比学习,SCLHM)与多种现有方法进行比较,其中包括一些使用完整人工标注的方法以及若干仅使用部分或不使用标签的方法。在无标签方法中,SCLHM在整体上达到了最先进的性能,并在若干情况下接近甚至匹敌依赖人工注释的方法。额外实验表明,软平滑、混合记忆和自适应更新这三部分都对最终准确率有显著贡献。

全天更清晰的视觉感知

对普通读者而言,核心信息是:作者构建了一种使计算机在无需人工指名身份的情况下,自主学习跨昼夜摄像头识别人员的方法。通过平滑不可靠的猜测并谨慎地将每种摄像头类型的特有信息与它们共有的特征结合起来,该框架学到更稳定、更通用的模式。这使得在复杂、弱光环境中的人员跟踪更准确、更具可扩展性,有望改善安防、交通管理以及依赖可靠全天候视觉感知的其他应用。

引用: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

关键词: 人员重识别, 红外成像, 无监督学习, 对比学习, 监控