Clear Sky Science · zh

棕榈叶文献文本行分割的基准数据集

· 返回目录

拯救写在叶片上的故事

棕榈叶手稿是南亚和东南亚最古老的生命、科学、宗教与艺术记录之一。这些脆弱的叶片正逐渐褪色、开裂并被岁月侵蚀,导致数百年的知识面临流失风险。本文介绍了 LeafOCR-Line,一个精心构建的数字数据集,旨在帮助计算机更准确地识别受损棕榈叶上的文本行,从而加速保护并向世界共享这一脆弱遗产的工作。

Figure 1
Figure 1.

为何古老叶片难以阅读

阅读棕榈叶手稿并不像扫描现代印刷页面那么简单。书写常常倾斜、挤在狭小空间,或被传统用以装订的穿孔打断。年代带来污渍、霉斑、裂口和褪色的墨迹。其中一些痕迹容易与字形混淆,而真实字形的部分可能缺失或几乎不可见。在诸如马拉雅拉姆语这样的语言中,字母由许多环形和叠加的符号构成,邻行之间可能发生重叠。对于试图定位每一行文字的计算机视觉系统来说,这种混乱、重叠的版面尤其具有挑战性。

从实体叶片到数字基准

作者旨在创建一个大型、真实的基准数据集,聚焦数字化链中的一个关键步骤:将每一文本行与背景和相邻行分离。他们从一个公开的在线收藏中收集了 20 捆马拉雅拉姆棕榈叶手稿,涵盖大约公元 1000 年至 1800 年之间的作品。提取出近 3,000 幅页面图像并自动裁切出深色背景后,研究集中在叶片区域。每张裁切后的叶片尺寸差异很大,包含三到十二行文字,可能有一两个穿孔、不规则的间距以及反映不同作者和时代的多样手写风格。

分类损伤并描绘每一行

由于不同程度的损伤需要不同的处理策略,每幅图像被分配到三个质量等级之一:轻度劣化、中度劣化或高度劣化。该分级基于先前的一种客观评估方法,分析视觉清晰度、对比度和物理状况。LeafOCR-Line 的主要创新在于对书写行的标注方式。研究团队没有绘制简单的矩形(常常切断上下延伸的字形),而是使用灵活的多边形轮廓,紧贴每行实际的弯曲形状。

Figure 2
Figure 2.
研究生使用带有 AI 辅助功能的标注工具手动描绘这些形状,然后逐点精细调整,以便对环形、曲线、重叠和褪色笔画进行细致处理。通晓马拉雅拉姆语的专家复核了结果;任何对齐错误或不准确的掩码都会被退回修改。

数据集包含哪些内容

总体而言,LeafOCR-Line 提供了 1,710 张棕榈叶图像,每张图像都配有一张突出显示其文本行的匹配掩码图像。该集合被划分为训练、验证和测试子集,并在三种质量等级上保持相似的比例:约一半图像属于中度劣化,其余大致平均分布于更好和更差的状况。从这 1,710 张叶片中,研究者可以提取超过 10,000 张单行图像。附加文件为每张图像汇总了其损伤等级和来源手稿,并包含返回原始在线库的链接。该结构便于公平比较方法并设计能适应不同损伤程度的系统。

现有算法的表现如何

为证明数据集既有挑战性又有用,作者训练并测试了一组现代图像分割模型,范围从经典的编码器—解码器网络到较新的基于变换器的设计。他们测量了每个模型预测的行区域与人工制作掩码的匹配程度。所有模型都能在一定程度上分割出文本行,但有一种被称为 DeepLabV3 的方法表现尤为突出。它在捕捉细而弯曲的行并在严重受损的叶片上保持连贯性方面尤其有效,尽管在行距极近的区域仍存在小的错误。其他流行模型如 U-Net 和 LinkNet 也表现强劲,但在最差的样本上稍微不那么稳定,而一些基于变换器和金字塔结构的网络在细节处理上则有困难。

从单一文字到多种文字,以及其重要性

尽管 LeafOCR-Line 仅包含马拉雅拉姆文字,其字形和版面特征与邻近文字如泰米尔文、蒂加拉里文和格兰塔文相似。作者展示了在其数据集上训练的模型也可以分割这些相关文字的文本行,表明相同的数据可以支持跨多种语言的更广泛数字化工作。对于非专业读者,主要信息很直白:LeafOCR-Line 提供了一个健壮的公共基础,用于构建和测试能够“识别”受损棕榈叶上文本行的算法。这反过来有助于档案员、图书馆员和社区将脆弱、正在褪色的植物材料转化为可检索、可共享的数字档案,从而为后代保存文化记忆。

引用: Sivan, R., Pati, P.B. A benchmark dataset for text line segmentation in palm leaf documents. Sci Data 13, 424 (2026). https://doi.org/10.1038/s41597-026-06718-1

关键词: 棕榈叶手稿, 文本行分割, 文献数字化, 马拉雅拉姆文字, 遗产保护