Clear Sky Science · zh

SSG–CAM：通过精炼的二阶梯度与进化式多层融合提升视觉可解释性

2026-01-31 · 返回目录

为什么看懂 AI 很重要

现代图像识别系统能够以超人般的速度发现肿瘤、交通标志或血细胞中的微小寄生虫——但它们很少明确展示出为何会做出某个决策。这种“黑箱”行为在医学和安全关键领域尤其令人担忧，因为错误判断可能带来严重后果。本文提出了一种新方法，使深度学习模型在视觉上更清晰、更可靠地解释自己，帮助人类看清图像中哪些部分真正驱动了 AI 的判断。

从模糊热图到更清晰的解释

一类流行工具称为类激活图（CAM），它能将神经网络的内部运算转换为覆盖在原图上的彩色热图。明亮区域显示模型在做出“这是一只鸟”或“这是一段病变细胞”等判断时“注视”的位置。现有的 CAM 方法常常依赖网络内部的简单一阶梯度信号。这些信号可能含有噪声或出现“饱和”——即即使图像细节仍然重要，梯度也不再变化。结果是热图可能点亮大块背景、漏掉细微结构，或在不同层之间给出不一致的解释。

对网络观察的更平滑第二次审视

作者提出了平滑二阶梯度 CAM（Smooth Second-Order Gradient CAM，SSG–CAM）。SSG–CAM 不仅依赖梯度的一阶信息，还考察这些梯度自身如何变化——也就是二阶信息。这一额外的灵敏度层有助于揭示网络决策真正依赖的特征，降低重要证据被冲淡的风险。为抑制随机噪声，SSG–CAM 使用高斯滤波对梯度进行温和平滑，类似相机模糊去除斑点同时保留形状。最后，它以一种强调强且可靠响应、抑制弱或不一致响应的方式，结合平滑后的一阶和二阶信号，生成更干净、更聚焦的热图。

让算法挑选最佳层级

深度网络不是一步完成的：早期层捕捉边缘和纹理，而更深层则编码整个物体或概念。许多 CAM 方法尝试融合多层信息，但通常依赖人工选择或固定规则。研究表明，天真地将所有层叠加在一起反而会损害性能，引入使最终解释模糊的低级噪声。为了解决这一问题，作者将 SSG–CAM 与一种称为差分进化（differential evolution）的优化策略配对，构建了 DE–SSG–CAM 框架。该算法自动搜索特征层组合和若干关键设置，目标是在一小部分带标注样本上找到最能匹配真实物体形状的混合方式。一旦找到，这些设置就可重复使用，从而在不需昂贵人为调参的情况下，提供强鲁棒的多层解释。

对方法进行检验

研究人员对 SSG–CAM 和 DE–SSG–CAM 进行了多项严格测试。在标准图像基准上，该新方法使弱监督目标定位（仅使用图像级标签绘制物体边框）比若干流行 CAM 变体更为准确。它还改善了弱监督语义分割任务，该任务要求模型在没有详细训练掩码的情况下为每个像素打标签。在一次“图像扰动”实验中，研究团队模糊处理了各方法所突出显示的区域。当移除由 SSG–CAM 选出的区域时，网络的准确率下降最多，这表明这些被强调的区域对模型决策确实至关重要，而不仅仅是装饰性的热点。

在血细胞中发现微小寄生虫

最引人注目的应用来自生物医学成像。作者使用他们的方法定位红细胞图像中的疟疾寄生虫，这类感染区域可能极其微小且形状不规则。在仅使用图像级感染标签训练的情况下，DE–SSG–CAM 生成的伪掩码与专家画出的轮廓高度一致，达到 62.38% 的平均交并比（mIoU）——对于如此具有挑战性且弱标注的问题而言，这是一个强劲结果。该框架在另一种网络类型 ResNet34 上也表现良好，表明该技术并不依赖于单一架构，能跨设计适应。

这对普通用户意味着什么

对非专业人士而言，关键结论是这些方法让 AI 的“推理”更可见、更值得信赖。SSG–CAM 提供了更清晰、噪声更少的热图，更符合人类认定的真实物体或病变位置；而 DE–SSG–CAM 自动学习如何结合不同深度的网络信息。两者共同将视觉解释推进了一步，使医生、工程师和监管者在问“为什么模型说这张图像显示疾病或危险？”时，更能得到可以依赖的答案。

引用: Chen, Z., Zhang, Y.J., Pan, L. et al. SSG–CAM: enhancing visual interpretability through refined second-order gradients and evolutionary multi-layer fusion. Sci Rep 16, 6848 (2026). https://doi.org/10.1038/s41598-026-37278-4

关键词: 可解释的人工智能, 类激活图, 深度学习可视化, 医学图像分析, 目标定位