Clear Sky Science · zh

用于低资源彝文字符检测和数据集构建的细粒度表征学习

· 返回目录

拯救脆弱的书写遗产

中国西南的彝族数百年来保存着丰富的书写传统,使用他们自己的文字记录医学、天文、宗教和日常生活。然而,这些手稿中许多正在褪色、受污或受损,且彝文字形本身视觉上非常复杂。手工转录数十万字符既缓慢又昂贵。本文提出了一种专门用于在旧文献数码图像中定位并分离彝文字的计算机视觉系统,为大规模数字化和保护这一濒危书写遗产奠定了基础。

Figure 1
Figure 1.

为什么这种文字对计算机如此困难

与更熟悉的拉丁字母或甚至现代印刷中文不同,彝文字由稠密的弯曲笔画构成,笔画常常相互缠绕。许多不同字符外观极为相似,同一字符在不同时期和不同手稿中可能呈现略有差异。历史页面常采用紧密的多栏布局,间距不规则且笔画可能重叠。除此之外,墨迹可能褪色、纸张变形、背景斑驳。早期的检测方法依赖于关于间距的固定规则或通用文本检测模型,往往会将邻近字符合并、错过微弱笔画,或将背景噪点误判为文字。作者认为彝文手稿代表了一类“最困难”的文本检测场景,解决该问题可惠及许多其他低资源文字。

捕捉细节的新方法

为应对这些挑战,研究者设计了一种专用神经网络,称为FGRL-YiNet(用于彝文的细粒度表征学习网络)。其核心在于对标准卷积层的改进——这是现代图像识别的主力。FGRL-YiNet并非在所有位置使用单一固定滤波器,而是采用动态卷积:多个候选滤波器并行作用,一个小型门控模块为图像的每个区域决定应依赖各个滤波器的程度。这使系统能够根据局部笔画模式微调其“感受野”,更好地捕捉细腻的曲线和交叉点,同时不被背景杂乱或纸张损伤干扰。网络以紧凑的ResNet-18作为骨干,刻意保持模型规模适中,以便在相对有限的彝文标注数据上有效学习。

Figure 2
Figure 2.

结合多尺度并清理页面

在整页手稿上检测字符还需要同时理解多个尺度的模式——从单个笔画的微小曲折到整栏布局。FGRL-YiNet引入了自适应多尺度融合(AMSF)模块来解决这一问题。网络首先在多个分辨率上提取特征,然后使用联合注意力机制决定在每个位置哪个尺度和哪些通道最为重要。该注意力机制的一部分侧重于图像中“在哪里”需要关注细节,另一部分则侧重于“什么类型”的特征有用——例如特定笔画宽度或字符内部的小环。在此并行流程中,一个可微分的二值化头通过同时预测概率图和局部可变阈值来学习将墨迹与背景分离。由于该步骤内置于网络并端到端训练,它可以保留传统黑白化会抹去的微弱笔画,同时抑制斑点和污渍。

为罕见文字构建基准数据集

任何专门文字的一大障碍是数据:高质量数字化彝文手稿稀少,带有精确字符标注的更少。团队通过从凉山彝族经典中构建YiPrint-694数据集来应对这一点,最终得到694页图像中近347,000个标注字符,涵盖1,165个字符类别。他们将细致的预处理——去噪、边缘增强和二值化——与半自动分割流水线和彝语专家的耐心人工校验相结合。为了模拟古旧、变色页面的外观,他们还生成了带有泛黄和褐色背景的额外图像。这个精心整理的集合既成为FGRL-YiNet的训练场,也作为彝文及相关文字未来研究的公开基准。

系统性能如何

在与一系列最先进文本检测器(包括广泛使用的模型如Faster R-CNN、DBNet++和PSENet)比较时,FGRL-YiNet在YiPrint-694上取得了最佳的总体评分。其检测字符的f-score高达94.7%,由极高的精确率(98.4%)和出色的召回率(91.3%)驱动,意味着它很少将背景误判为文字,同时仍能找到页面上大多数字符。消融实验(移除单个组件)表明每项创新——动态卷积、自适应多尺度融合和可微分二值化——都带来了可测的增益,且协同工作效果最佳。该模型还成功迁移到更大的历史中文佛经数据集MTHv2,在那里其表现与领先的通用检测器具有竞争力,突显了更广泛的潜力。

对文化保护的意义

对非专业读者而言,核心信息是:通过谨慎且有针对性的设计,即使在训练数据有限的情况下,计算机也能识别世界上一些最具挑战性的文字。通过结合自适应滤波器、智能多尺度融合以及内置的退化页面清理,FGRL-YiNet能够在拥挤且受损的手稿中可靠地定位单个彝字符。这使得构建可检索的数字档案、支持语言学和历史研究以及保护彝族的书写记录变得容易得多。作者将他们的架构和数据集视为应对全球其他服务不足文字的蓝图,展示了人工智能进步如何在保护脆弱文化遗产方面发挥直接作用,为后代保存书写记录。

引用: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

关键词: 彝文, 历史手稿, 文本检测, 数字遗产, 深度学习