Clear Sky Science · zh

通过双路径多尺度全局注意力模型对唐代长沙窑诗文陶瓷的书写者识别

2026-03-11 · 返回目录

瓦上诗句，人间烟火

在小巧的唐代瓷壶与枕的釉面上，千年前的诗句在湿釉上被轻柔书写。如今这些短促的诗句不仅因其美感而珍贵，也因它们可能揭示出书写者的个体特征而备受关注。然而，直到现在，将某一题记与具体书写者对应仍主要依赖少数专家的目力判断。本研究展示了现代人工智能如何协助识别这些脆弱文物背后的人手，从而为早期中世纪中国的日常生活、工作与贸易打开一扇新窗口。

这些瓷器为何重要

长沙窑在繁盛的唐代生产出色彩丰富的陶瓷，饰以绘画、书法与诗句。这些器物沿着早期贸易路线广泛流通，既是文学与品味的载体，也是日用器皿。器上的题记不仅保留了文字，也保留了笔触的劲道与书者的选择。然而，大多数存世作品分散在博物馆和私人藏品中，高质量图像稀缺。此前并不存在公开的、标准化的题记图像数据集，这使得研究人员难以比较器物、测试数字方法或解答诸如“同一位陶工书写了多件器物上的诗句吗？”之类的基本问题。

构建唐代手迹的数字库

为应对这一问题，作者首先从已出版的长沙窑器物目录中汇编了新的图像集合。从135件单独文物——主要是壶、盘与题诗或短札的枕——中，他们细致地提取出1,865张单字图像。由于题记位于曲面的陶器上，靠近边缘的文字在照片中会显得变形。团队采用专门的图像分割和表面展平流程来校正这些曲率，随后去除污垢与裂纹，将图像转换为灰度、调整尺寸、降低噪声，并略微翻转部分图像以增加多样性。最终形成了第一个专注于长沙窑诗文手迹的数据集，这一资源可支撑之后的文字识别、书写风格分析及多种研究。

教神经网络“看见”风格

基于该数据集，研究者设计了一个计算机视觉系统，其任务是判断两幅字形图像是否很可能出自同一位书写者。模型通过两个并行通道输入一对字符，两个通道共享相同的处理步骤。经过基础滤波后，图像进入深度神经网络（ResNet-34），以提取笔画粗细、弧度、间距和其他细微特征的模式。系统的核心是一种新的多尺度全局注意力模块。该模块并非只在单一固定细节层面上观察，而是同时在若干尺度上检查字符——从粗略布局到细小笔画波动——并学习笔画远端部分之间的关联。通过整合这些视角，模型为每位书写者构建出丰富的内部“指纹”，然后比较两者指纹并输出介于0到1之间的相似度得分。

将系统付诸测试

团队比较了数种流行的神经网络骨干与注意力机制，发现他们的双路径网络配合这一注意力模块表现最佳。其识别准确率约为97.9%，明显优于旧有的单尺度注意力模型。为了解算法学到了什么，作者生成了热力图，显示网络“注视”最密切的区域。这些区域突出笔画转折、左斜笔以及其他笔压与节奏上因人而异的部位——类似于人类鉴赏家会检视的要点。随后，研究者在单件器物内与器物之间执行大批量测试。在单个器物内，系统始终判定所有字形高度相似，支持每件器物的题诗由单一书写者所书的观点。

关于古代工匠的新线索

最引人注目的结果出现在模型比较来自不同藏品的器物时。两件刻有爱情主题七言诗的陶枕表现出极高的风格相似性，尽管它们现藏于不同机构。考古记录将两件枕定位于同一窑场，其器形、装饰图案与题材高度一致。算法的判定——即两处题记为同一人所书的概率为85.8%——支持它们出自同一书写者的结论。相反，三件带有关于悔恨的相关警句的酒壶则表现出较低的相似度得分，表明可能是三位不同的书法者在抄写共同的文本格式。总体而言，这些发现展示了人工智能的“目光”如何帮助历史学家追踪作坊组织、劳动分工与贸易实践。

对过去与未来的意义

通过将细致的数字成像与复杂的神经网络结合，本研究把陶器上脆弱的墨迹化为关于“谁写了什么”的定量证据。对普通读者而言，关键结论是：计算机视觉现在几乎能像人工专家那样可靠地分辨古代书法中的个体手迹，但速度更快、可处理的器物数量远超人工鉴定。这使得将散落世界各地的片段联系起来、绘制久被遗忘工匠的职业轨迹以及更好地理解唐代大规模生产与个人表达并存的状况成为可能。尽管该方法并非完美、且依赖有限且有时受损的数据，但它为博物馆与学者提供了强有力的新工具——同时也为将人工智能应用于其他类型历史手稿树立了范式。

引用: Jiang, C., Li, M., Guo, Y. et al. Scribe identification for Tang Dynasty Changsha Kiln poetic ceramics via dual-path multi-scale global attention model. npj Herit. Sci. 14, 146 (2026). https://doi.org/10.1038/s40494-025-02152-5

关键词: 古代手迹, 唐代陶瓷, 书写者识别, 深度学习, 数字遗产