Clear Sky Science · zh

工业现场高相似度机械零件智能识别方法研究

2026-02-06 · 返回目录

为什么识别相似零件很重要

现代工厂依赖机器人来查找、拾取并装配成千上万的小型金属零件。这些零件——齿轮、轴承、链轮、螺母和螺钉等——在强烈光照或在传送带上相互重叠时往往看起来极其相似。如果机器人把一种零件错认成另一种，可能导致卡顿、缺陷，甚至损坏设备。本研究着眼于一个表面看似简单但工业影响巨大的问题：在真实车间环境中，如何让紧凑且快速的视觉系统可靠地区分几乎相同的零件？

真实工厂视觉面临的挑战

在工厂车间，摄像头很少能得到演示视频里那样干净的视野。照明不均会在光亮金属表面产生强烈反光，而其他区域则出现深重阴影。零件常被倒入料箱或散落在皮带上，彼此部分遮挡。更为棘手的是，许多金属组件在形状、颜色和纹理上极为相似，留下的明显视觉线索很少。传统基于模板匹配或手工特征的软件在这些条件下表现很差：速度慢、对光照变化脆弱，并且在零件重叠或意外旋转时常常失效。

基于快速单次检测器的改进思路

近年来，一类被称为YOLO（You Only Look Once）的人工智能模型因能在单次快速通行中检测图像中的对象而流行起来。YOLOv8 作为较新的版本之一，在准确性与速度之间已有良好平衡，并能实现实时运行。然而，当不同零件外观几乎一致时，即使是 YOLOv8 也可能错过细微线索或画出不精确的检测框。以往为小型设备压缩 YOLO 模型的尝试常常通过减少参数来实现，但这也削弱了模型表达细节的能力，而恰恰需要这些细节来区分相似的机械零件。

更精简却更敏锐的检测网络

作者提出了对最小型 YOLOv8 模型（YOLOv8n）进行改进的方案，专为易混淆的工业零件和计算能力有限的硬件设计。首先，他们将网络的标准核心替换为名为 FasterNet 的新结构，后者使用“部分”卷积技巧，仅在每一步对图像中最有用的区域进行计算，从而减少在内存中的重复运算而不丢失关键视觉信息。其次，他们重新设计了网络中间的“颈部”结构，采用双向特征金字塔（BiFPN），使得粗略的全局视图可以向下传递到细节层，同时细节信息也能向上传回，既让小而被遮挡的零件受益于上下文，也让全局语义得到细化。

教会网络忽略误导性提示

除了网络结构外，训练时用来调整网络的损失函数强烈影响模型关注的重点。标准训练方法对所有样本大致一视同仁，这意味着低质量的训练框（对齐差或含糊不清）可能误导模型。作者用一种称为 Wise‑IoU 的方法替代了常用的框匹配规则。简单来说，这种方法不仅根据重叠程度评分训练样本，还评估其作为“离群值”的程度，然后悄然降低那些不可靠样本的影响。随着训练进展，系统主要从清晰、标注良好的样本中学习，从而在零件重叠或光照困难时得到更紧凑、更可信的检测框。

对系统的评测

为了评估所设设计，团队构建了自己的图像集，包含六类常见机械零件，每类在不同光照条件和不同程度相互遮挡下各采集了1250张图像。他们将改进后的模型与标准 YOLOv8n 及若干其他轻量检测器进行了比较。新系统在总体检测质量上取得更好表现，同时计算量不到原来的三分之二，参数量约减少了42%。特别是，在常用阈值下的平均精度（mAP）这一关键指标上提升了约1.5个百分点，并且仍能在普通硬件上高效地实现实时运行。

对智能工厂的意义

通俗地说，这项研究表明工厂机器人可以变得更聪明且更精简。通过重设计的网络核心、更智能的特征融合以及更有选择性的学习规则，一个小型 AI 模型能够在杂乱的真实场景中更可靠地区分外观相近的齿轮、轴承等零件，即便光照差且零件互相遮挡。这种更高的准确性与更低的计算负担的结合，使在低成本边缘设备上部署稳健的视觉系统更为可行，为更灵活、全自动的生产线铺平道路，而无需依赖庞大的服务器或完美受控的环境。

引用: Lu, C., Ye, X., Wu, J. et al. Research on intelligent recognition method of mechanical parts with high feature similarity in industrial field environment. Sci Rep 16, 7640 (2026). https://doi.org/10.1038/s41598-026-39036-y

关键词: 工业目标检测, 机械零件, 轻量化深度学习, YOLOv8, 工厂自动化