Clear Sky Science · zh

基于改进YOLOv11的蜡染图案检测研究

2026-03-09 · 返回目录

古布遇上现代代码

中国苗族社区的蜡染布不仅是装饰：其蝴蝶、龙、鸟与花卉在没有文字书写的情况下，悄然记录着历史、信仰与日常生活。然而，随着这些织物逐渐老化、年轻一代远离传统手艺，重要的文化信息面临被大量未标注照片和褪色织物淹没而丢失的风险。本研究展示了先进的图像识别软件如何自动在复杂的蜡染图像中定位并识别微小且互相重叠的纹样，为以规模化方式保存与探索这一活态艺术提供了新的途径。

这些图案为何重要

中国蜡染是一种手工染色技艺，流传已有两千多年，尤以贵州苗族群体中繁盛。由于该社区历史上缺乏书写文字，蜡染纹样成为记录神话、仪式、美学和社会习俗的视觉档案。学者们已开始使用数学、设计与人工智能的工具对这些纹样进行数字化与分析。以往的研究在分类孤立纹样方面取得了较好效果，但通常需要将纹样从原始布料中裁剪出来，从而割裂了每个符号与更大构图之间的联系。这使得理解纹样在服饰或织物上如何相互作用以传达多层含义变得困难。

从简单标注到智能检测

作者认为，所需的不仅是分类，而是完整的目标检测：在整张照片中定位每个纹样并标注其类别。这在真实的蜡染图像中是一个困难的问题，因为图案常常密集排列、尺寸差异大，且经常褪色、开裂或部分遮挡。包括早期YOLO（"You Only Look Once"）系列在内的标准检测系统在这些条件下表现不佳：它们往往遗漏极小的符号，被复杂的背景干扰，或在光照与图像质量不均时失败——而这些正是策展人和实地研究人员最常采集的图像类型。

教神经网络“读布”

为应对这些挑战，研究团队首先构建了当前最大的中国蜡染检测数据集：861张高分辨率图像，标注了七类纹样（蝴蝶、鱼、龙、鸟、鼓、花与果）共9933个边界框。他们在图像尺寸与质量之间进行了精心平衡，并通过受控的模糊、色彩变化、翻转、拼接（mosaic）等变换扩充有限的数据，以防模型简单记忆训练样本。在此数据集之上，团队构建了改进版的YOLOv11——一个为速度与模型轻量化而设计的前沿目标检测框架，这对希望在博物馆与文化中心的普通计算机上运行该工具尤为重要。

看得更远、看得更清晰

改进模型引入了两个关键思路。其一，受VOLO（vision outlooker）机制启发的组件使网络能够一次性跨越图像中较远的区域进行观察，而不只是局限于小的局部邻域。这有助于模型识别出远处的两个微小形状可能属于同一有意义的图案，并理解一个纹样的作用依赖于其邻近元素。其二，团队重构了网络处理图像特征的方式，采用一种名为Fused-MBConv的结构。该重设计在保持计算效率的同时，增强了模型从嘈杂、陈旧织物中提取细微细节的能力。在测试与仔细的消融研究中，他们的最终设计在平均检测精度上超过了基线YOLOv11及若干其他轻量检测器，同时仍足够快速，可实现实时或近实时使用。

从自动标签到文化故事

除了原始检测指标外，研究者还将其模型与一个蜡染知识图谱相连接，将每种纹样类型关联到其起源故事、象征意义与相关实例。在原型软件系统中，用户可以上传一张布的照片，看到检测出的纹样被标注高亮，然后点击查看更多其文化背景。对于档案员而言，这意味着可以更快速、更一致地对大型藏品进行编目。对于教育者与参观者而言，这将图案识别转化为了解苗族信仰、仪式与审美的切入口。尽管当前系统仅在中国蜡染上训练，作者将其视为一种跨文化工具的蓝图，未来可望帮助保护从印度尼西亚到印度的织物传统，确保布上的纹样即便在织物本身老化褪色后仍能继续“诉说”其故事。

引用: Li, Y., Quan, H., Li, Q. et al. Research on batik image pattern detection based on improved YOLOv11. npj Herit. Sci. 14, 143 (2026). https://doi.org/10.1038/s40494-026-02404-y

关键词: 蜡染图案检测, 非物质文化遗产, 计算机视觉, YOLO目标检测, 苗族纺织艺术