Clear Sky Science · zh

刺绣钱包图案的智能识别:YOLO 系列与 RT‑DETR 的比较

· 返回目录

为什么古老刺绣钱包在今天仍然重要

在中国各地,曾有人用小巧的刺绣钱包盛放药草、护符,并寄托对幸福的期盼。如今许多钱包只存留在博物馆的抽屉或私人收藏中。每一朵小小的针迹花朵或龙纹都编码着关于信仰、服饰与日常生活的故事。然而,手工为这些工艺品建立数字化目录的速度极其缓慢。本研究探讨了现代人工智能如何自动识别钱包上的图案,帮助博物馆与社区在数字时代保存这一重要的非物质文化遗产。

Figure 1
Figure 1.

从人眼与手工到智能识别

传统上,专家通过仔细查看照片并查阅参考资料来识别钱包的图案。这种方法难以适用于散落在各档案馆中成千上万的藏品。研究人员收集了一个专门的图像集,包含来自书籍和一家大型博物馆数字档案的 783 件刺绣钱包图片。他们定义了八类常见纹样——包括植物与花卉、鸟兽、昆虫与水生生物、风景与建筑、符号与文字、人物与故事、器物与古董以及几何图案——并在每张图像中对每个图案精细标注边界框。为应对数据集体量较小的问题,他们对图像进行了水平翻转、旋转、调亮、调暗与模糊等数字增强,训练素材扩充了四倍多,并通过软件与文化遗产专家共同校验标签。

将流行 AI 工具付诸考验

有了这个策划好的数据集,团队比较了两类目标检测系统。一类是广为使用的 YOLO 系列,适合用于行人或车辆等需要快速检测的任务,这类模型通常对图像做一次性处理并高度依赖局部图块。另一类是较新的设计 RT‑DETR,它将传统的图像滤波与变换器式注意力机制结合起来,能够把微小针迹与整体场景联系起来。作者首先调优了若干 YOLO 变体,选定 YOLOv5m 作为强基线。该模型在某些类别上表现尚可——尤其是归为“人物与故事”的复杂叙事场景——但在图案尺寸小、强烈重叠或与背景色相近时表现欠佳。在这些情形下,花卉可能被漏检,几何边框被误读,图像部分区域被错误地标注为背景。

混合变换器如何“看见”针脚

研究人员随后着力改进 RT‑DETR 以应对这一非同寻常的视觉挑战。他们将其标准骨干网络替换为 ConvNeXt‑Large,这是一种既能捕捉细微纹理又能兼顾全局视野的现代卷积网络。训练策略上采用了 Focal Loss,使模型对难以区分、易混淆的样本给予更多关注,而不被简单样本主导。在 RT‑DETR 内,钱包图像的特征在多个尺度上提取并融合,注意力机制将相距较远但相关的区域连接起来,例如成对的动物或重复的边饰。通过细致的消融研究以及对学习率计划与正则化的逐步调优,作者得出了一套在多次训练中兼顾准确性与稳定性的优化配置。

Figure 2
Figure 2.

改进系统实际能达到的效果

在标准目标检测评分上,经改进的 RT‑DETR 明显优于 YOLO 模型。其主要准确率指标 mAP@0.5 达到 0.5433——相比 YOLOv5m 基线提升约 33%——统计分析表明这一提升不太可能是偶然。该系统在复杂叙事场景上表现尤其出色,“人物与故事”类别的平均精度达 0.833,并且恢复了许多 YOLO 漏检的图案,尤其是在稀疏或样本不足的类别,如风景与几何边饰上。它在重复实验中的表现也更为稳定,表明其行为更可靠,而不是对某一训练-测试划分的脆弱过拟合。代价是模型规模:最佳 RT‑DETR 模型比 YOLO 同类更大、更重,可能限制其在轻量设备上的部署。

对文化遗产的意义

对非专业读者来说,核心信息是:计算机正在学会的不仅是检测汽车与人脸,也能“读懂”传统工艺的视觉语言。研究表明,经过精心改造与训练的基于变换器的检测器能够比流行的实时模型更准确地识别密集且重叠的刺绣纹样,为未来工具建立了基准。博物馆与文化机构最终或可利用此类系统按图案在大量照片中检索、追踪某些符号的演变,或协助工匠复兴旧有设计。作者强调当前性能仍属中等,仍需进一步改进——包括研发更轻量的模型并引入文化知识与文本描述——才能实现大规模部署。即便如此,该研究仍标志着朝着对刺绣钱包遗产进行智能且尊重的数字化管理迈出的重要一步。

引用: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

关键词: 刺绣图案识别, 非物质文化遗产, 目标检测, 基于变换器的视觉, 数字化保护