Clear Sky Science · zh

基于多分支网络结构的细粒度高频工件图像识别算法

2026-02-25 · 返回目录

为工厂零件配备更智能的“眼睛”

现代工厂依赖相机和计算机以高速对成千上万几乎相同的金属零件进行分拣。当这些零件仅在细微表面细节上有所差异时，即便是先进的图像识别软件也可能产生混淆，导致分拣错误、生产延误和额外成本。这项研究提出了一种让机器“看见”并区分此类相似部件的新方法，有望带来更可靠、更灵活且更高效的自动化制造。

为什么相似零件难以区分

在许多生产线中，所谓的高频工件——成批制造的扁平金属零件——需要被分类到数十个类别中。挑战在于，同一类别内的零件可能表现出复杂的表面纹理，而来自不同类别的零件从上方看又几乎相同。光照变化和零件在相机前摆放方式的差异使问题更加困难。这类任务属于计算机科学家所说的细粒度识别：不是区分汽车和人，而是根据微小线索区分非常相似的零件。

对每个零件的双轨视角

研究者基于一种紧凑的神经网络EfficientNet‑B0构建，并将其扩展为他们称之为MBEN的多分支系统。他们并非只将零件的整张图像输入网络，而是先让模型粗略确定图像中承载最具区分性信息的区域。一个弱监督的区域检测模块生成类似热图的输出，突出可能的关键区域，然后在该区域周围裁出更小的图像补丁。整张图像经由网络的一条分支（全局分支）传递，而裁剪的特写图像则经由另一条分支（局部分支）传递。这一设计使系统既能学习整体外观，又能捕捉区分零件类型的细微局部差异。

教会模型什么才是真正重要的

仅提供两种视角还不够；网络还必须被教导关注正确的区分依据。为此，作者设计了一个损失增强模块——在训练过程中指导网络自我调整的规则。该模块的一部分使系统对当前易混淆的类别给予额外关注，以免在简单样本上过度自信而忽视困难样本。另一部分则鼓励同类工件的图像在网络的内部表示中相互靠近，同时将不同类型的图像彼此推远。组合起来，这些机制塑造出更清晰的类别内部映射，提高了对新见图像进行正确分类的概率。

融合大局与特写

在全局和局部分支各自给出预测后，一个分支融合模块将它们合成为最终决策。研究者调节各分支的贡献权重，发现给全局图像略高的权重但仍强烈依赖特写区域效果最佳。他们在一个包含20类高频工件的定制数据集上测试该方法，图像在逼真的工厂光照条件下拍摄，并通过旋转和随机裁剪等数据增强手段扩充到数千张。MBEN系统达到98.75%的准确率——比多种现有细粒度识别方法高出若干百分点——同时所需计算资源相对适中。

对现实生产的意义

研究表明，将整图上下文、自动发现的细节补丁与精心设计的训练规则结合，可以显著提高机器视觉在艰难工业任务中的可靠性。对制造商而言，这类改进可能意味着更少的分拣错误、更少的人工检验，以及在多种相似产品类型之间切换时更大的灵活性。尽管该工作尚未处理一些现实世界中的数据不平衡问题（即某些零件类型远比其他类型稀少），但结果表明，更聪明、更有选择性的数字“眼睛”有能力跟上日益精细和多样化的生产线节奏。

引用: Deng, J., Sun, C., Lin, J. et al. An image recognition agorithm for fine-grained high-frequency workpieces based on a multi-branch network architecture. Sci Rep 16, 11067 (2026). https://doi.org/10.1038/s41598-026-41639-4

关键词: 工业图像识别, 细粒度分类, 自动化质量控制, 制造业中的计算机视觉, 神经网络