Clear Sky Science · zh
用于先进钢材表面缺陷预测的可解释混合型 AI CAD 框架
为什么钢材上的微小缺陷也该引起你的重视
从汽车和船舶到摩天大楼与机器人,许多我们日常依赖的事物都由平板钢材制成。如果工厂未能发现微小的裂缝、凹坑或划痕,它们可能削弱这些结构、缩短产品寿命并增加成本。本文描述了一种新型人工智能(AI)系统,它如同超高专注的检验员,更准确地发现并解释钢材表面上细微的缺陷,同时仍然足够快速,可在实际生产线上使用。

当前的钢材检测方式——以及它为何不足
传统的钢材检测依赖人工检验或简单的图像处理规则。人工容易疲劳,可能错过微弱或不规则的缺陷。基于规则的系统在光照、材料或缺陷形状稍有变化时便捉襟见肘,而在真实工厂环境中这种变化经常发生。近年来,尤其是 YOLO 系列的目标检测器,已被用于自动寻找缺陷。但这些一步到位的系统试图同时完成两种截然不同的任务:精确为缺陷画框并判定其类型。当缺陷极小、形状奇特或与背景钢材相似时,这种耦合方法往往会漏检或混淆类别。
将任务拆分为两步以获得更敏锐的“眼睛”
作者提出了一个“混合”计算机辅助诊断(CAD)框架,有意将定位缺陷与识别缺陷分开处理。首先,一个改进的检测器称为 Fusion YOLO,专注于对每个区域回答一个简单的是/否问题:这里是否存在某种缺陷?它结合了三个优化的基于 YOLO 的模型,包括一个定制设计 DCBS-YOLO,并使用一种对重叠框进行平均而不是丢弃的合并技术来融合建议。这使系统能够对可疑区域画出更可靠的轮廓,尤其是在缺陷微小、形状异常或与背景对比不明显时。
教系统同时关注细节与全局
一旦定位到可能的缺陷区域,第二阶段接管并决定每个缺陷的类型——例如类似裂纹的“网状”痕迹、凹坑、斑块或划痕。框架在此处结合了若干卷积神经网络(CNN),它们擅长捕捉细微纹理,以及一个视觉 Transformer(Vision Transformer),它在识别更大范围的模式与远程关系方面表现优异。它们的特征图被融合,使得局部细节与全局语境能够一并被考虑。这种安排显著减少了人机都易混淆的缺陷类型之间的误判。在多类 CNN 中,表现最佳的三模型联用加上 Transformer,经端到端训练,在基准数据集上达到了近乎完美的分类成绩。
清理视图并自动调优模型
为了给 AI 提供最佳条件,作者设计了一个预处理管线,对钢材图像进行温和增强。通过调整亮度与对比度、降低噪声并锐化边缘——同时谨慎保护整体图像质量——使得微弱缺陷更为突出而不引入人为伪影。除此之外,基于 MLOps 的工作流会自动搜索多种训练设置,如学习率与批量大小,以找到对检测和分类最有效的组合。这种自动化减少了反复试错,并确保最终模型接近在该任务上的最佳性能。

用可视化解释打开黑箱
由于工业用户在将系统投入生产线前必须建立信任,框架包含了可解释 AI 工具。在缺陷被标注后,一种称为 Grad-CAM 的方法会生成热力图,突出显示图像中对决策影响最强的部分。这些彩色覆盖图向检验员精确展示了 AI 在判断为裂纹或凹坑时“看”到了哪里。在第一阶段漏检的情况下,分类阶段及其热力图仍能揭示可疑区域,作为安全网并帮助工程师理解剩余的盲点。
这些结果对真实工厂的意义
在两个广泛使用的钢材缺陷数据集上的测试显示,该新框架优于标准 YOLO 模型和若干近期研究系统,在检测准确性和分类得分上都取得了高水平,并能良好地泛化到新类型的缺陷。尽管两阶段设计计算量更大且尚未完全达到理想的实时速度,但它已接近许多生产线所需的帧率。作者认为,经过进一步工程优化,这一方法有望成为实用的检验助手:能够捕捉更多细微缺陷、解释其判断并帮助制造商交付更安全、更可靠的钢制产品。
引用: Moon, C., Al-antari, M.A. & Gu, Y.H. Explainable hybrid AI CAD framework for advanced prediction of steel surface defects. Sci Rep 16, 10796 (2026). https://doi.org/10.1038/s41598-025-34320-9
关键词: 钢材表面检测, 缺陷检测, 深度学习, 计算机视觉, 可解释人工智能