Clear Sky Science · zh

S2SWCLIP：通过空间-小波协同实现语义优化提示的零样本异常检测

2026-03-11 · 返回目录

在不共享敏感数据的情况下发现微小缺陷

现代工厂和医院越来越依赖摄像机来检测缺陷和疾病，但收集并标注足够多的有缺陷样本既困难，在医学领域又常受隐私法规限制。本文提出了S2SWCLIP，一种能够在从未见过特定生产线或医院样本的情况下，识别图像中的异常模式（例如金属裂纹或影像中的可疑区域）的技术。它通过将语言的智能利用与一种更精细地观察图像中形状与纹理的方式相结合来实现这一点。

为什么发现罕见问题如此困难

异常检测的任务是判断一张图像，甚至单个像素，是正常还是有缺陷。在生产线和医学影像中，真实的缺陷既稀少又高度多样，因此传统系统多以正常样本为主进行训练，学习“看起来正常”的特征。许多成功方法要么重建图像并标记差异，要么构建正常外观的紧凑描述并寻找异常值。当目标场景有可用数据时，这些方法效果良好。但在对隐私敏感或环境不断变化的情况下，可能无法为每种新产品或身体部位重新训练模型。基于CLIP的近期“零样本”方法——一种将图像和文本连接起来的强大模型——提供了一种仅靠文字描述即可检测异常的途径。然而，现有方法常依赖模糊的文本提示和粗糙的图像特征，这会模糊正常与异常模式之间的界限。

让“正常”与“损坏”的语言更清晰

S2SWCLIP 首先从语言方面入手。该方法不是使用单一通用短语如“损坏的物品”，而是构建了三类提示。一类与对象无关，描述未命名物品的正常或损坏状态；第二类通过情感化词汇（如“完美无缺”对比“严重”）以及暗示完好或有缺陷的词组，明确对比正负状态；第三类则提及具体缺陷类型——例如裂纹或划痕——以使“损坏”这一概念更具体。这些不同的短语被输入到CLIP的文本分支中，一个特殊的融合机制比较并结合它们的内部信号。通过滤除噪声成分并强调高度相关的部分，系统在考虑任何图像之前就产生了更丰富、更易区分的“正常”和“异常”表征。

既看清细节又把握整体的图像观察

在视觉方面，S2SWCLIP 改进了 CLIP 对图像的观察方式。标准版本倾向于关注宽泛的整体印象，可能会错过裂缝的细线或标记早期疾病的微妙阴影。为了解决这一问题，作者加入了一个分层融合模块，将来自不同分辨率的信息混合，既保留细节又保持大结构。随后他们应用了双小波变换——一种来自信号处理的经典工具，将图像分解为平滑的背景成分和更锐利的边缘或纹理。通过使用两种小波类型，该方法同时捕获温和的全局变化和突兀的局部变化，然后将它们重新组合为具有频率感知的特征图。这种“空间-小波协同”赋予模型对那些在纹理或频率上显著但肉眼几乎不可见的微小缺陷更敏感的观察能力。

将我们说的与我们看到的对齐

最后一步是将这些增强的图像特征与优化后的文本提示匹配。对于整张图像，S2SWCLIP 测量每个提示的表征与全局图像描述的对齐程度。对于像素级映射，它引入了一种基于熵的相似性得分，用以检查每个局部区域相比于文本特征携带了多少信息。那些在统计特性上与异常提示高度相似但与正常提示不同的区域会被标记为可疑。该模型在单个工业基准上进行了微调，然后在不重新训练的情况下在14个涵盖制造零件、纹理和医学影像的多样数据集上测试。在大多数测试中，S2SWCLIP 在图像级分类和像素级定位方面均优于早期的零样本方法，同时保持了适度的计算时间和可训练参数量。

这对现实世界检测意味着什么

对非专业人士而言，核心信息是S2SWCLIP超越了简单的“是否损坏？”措辞和粗糙的观察方式，而是将细致的语言与显微镜式的图像结构观察相结合。通过强化正常与故障描述之间的对比，并将图像解构为多尺度、基于频率的成分，该方法在无需针对每种新环境提供示例的情况下，更可靠地标记缺陷。尽管它在面对与复杂背景融合的极其微妙异常时仍可能遇到困难，作者也勾画了未来方向——如更局部化的分析与高级几何方法——以弥补这一差距。总体而言，S2SWCLIP 为面向隐私的灵活检测系统迈出了一步，使其能以极少额外数据适应新的工业和医疗场景。

引用: Zhang, H., Wu, C., Lu, J. et al. S2SWCLIP: semantic-optimized prompts with spatial-wavelet synergy for zero-shot anomaly detection. Sci Rep 16, 13062 (2026). https://doi.org/10.1038/s41598-026-43044-3

关键词: 零样本异常检测, 视觉-语言模型, 工业检验, 医学影像分析, 小波图像特征