Clear Sky Science · zh

一种基于特征模仿并结合注意力的增强策略用于视觉异常检测

2026-03-26 · 返回目录

为何发现图像中的异常模式至关重要

从确保工厂产品没有微小缺陷到监控街道上不寻常的事件，计算机越来越多地被要求标记任何看起来不合常理的情况。本文提出了一种新方法，帮助人工智能更可靠地区分正常场景与可疑场景，即便系统在训练时只见过正常样本。

Figure 1. 教师-学生网络与注意力如何协同工作以发现图像与视频中的异常事件和缺陷。

教会计算机什么是正常

在许多实际环境中，真实异常既罕见又难以人工标注。因此，大多数系统仅从正常图像和视频中学习，然后尝试发现任何不符合已见模式的内容。一种常见做法是训练模型重建输入图像（“重构”），并将较大的重构误差视为警示信号。但现代模型能力强大，有时会把异常场景也重建得很好，导致危险的错误，使有缺陷的产品或异常事件被误判为正常。

向更强的指导学习

作者通过配对两个模型来解决这一问题，称为教师与学生。教师是一个在正常数据上预训练并已掌握重构任务的网络。新方法不仅让学生重建图像，还要求其模仿教师的内部特征。这些隐藏特征捕捉了正常场景的整体语义与结构。当展示异常图像时，仅在正常数据上训练的学生难以复制教师的内部响应。这种不匹配成为除了像素级差异之外的一个强有力线索，表明存在异常。

让注意力跟随不匹配

为了充分利用教师与学生之间的分歧，论文加入了一个由特征不一致引导的特殊注意力模块。它首先计算教师与学生产生的特征之间的“差异图”。对于正常输入，该差异图通常较小且平滑，而在真正异常的区域则会被点亮。注意力模块随后使用该差异图来增强或抑制学生的部分特征，推动系统关注不匹配最显著的区域。不同于传统通常强调视觉显著区域的注意力，这种注意力纯粹由教师与学生之间的语义不一致驱动，因此与异常更紧密相关。

Figure 2. 教师与学生特征之间的差异如何引导注意力以突出真正异常的区域。

在视频与工厂图像上验证该思想

研究者将他们的特征模仿与注意力方案整合进若干领先的异常检测系统，应用于监控视频与工业产品图像。他们在三个具有挑战性的基准数据集上测试组合方法：用于校园场景异常事件的 Avenue 和 ShanghaiTech，以及用于细微物体与纹理缺陷（如地毯、金属部件和牙刷）的 MVTec AD。在这些测试中，增强后的系统持续优于原始版本，能发现更多异常同时控制误报。在某些类别中，缺陷区域定位的准确率提升超过二十个百分点，表明由特征不一致与注意力提供的额外引导显著提升了模型的识别能力。

这对可靠自动监控意味着什么

对非专业读者而言，主要结论是这项工作使计算机更能判断图像或视频中哪些是真正“不属于”的内容。通过要求学生模型不仅复制所见，还模仿可信教师的内部思考，并将注意力引导到二者分歧的区域，该方法降低了异常事件或缺陷被漏检的风险。这使自动化检测线与监控系统在不依赖大量带标注异常样本的情况下变得更可靠。

引用: Zheng, B., Gan, Y., Wang, L. et al. A boosting strategy based on feature mimicking with attention for visual anomaly detection. Sci Rep 16, 15084 (2026). https://doi.org/10.1038/s41598-026-37667-9

关键词: 视觉异常检测, 教师-学生网络, 注意力机制, 工业检测, 视频监控