Clear Sky Science · zh
使用具有有效连通域约束的生成对抗网络对澧叶秦简字符进行修复
让古老文字重获新生
在造纸术出现之前,中国官员在细长的竹木简上书写。数千片这些脆弱文献——被称为澧叶秦简——在埋藏两千多年后从一口废弃的井中出土。它们保存了第一个统一帝国的日常命令、账目和报告。但水、泥与微生物使大量墨迹模糊或缺损,人工阅读这些简牍十分耗时。此研究展示了一种现代人工智能系统如何在数字上“清理”受损字符,帮助历史学家从遥远的过去恢复文字的声音。
这些埋藏记录为何重要
澧叶秦简并非皇家诏敕或宏伟题铭;它们是运行中的政府的文书。三万多片简记录了一个秦朝边郡的税收、劳役与日常行政事务。与在干燥墓葬中发现的类似简牍不同,澧叶出土于井底的湿泥中。许多竹片变形、开裂、污渍斑驳;笔画被涂抹或侵蚀。辨识一批简牍可能需要专家数年时间,且不断增长的出土量已超出单靠人眼能处理的速度。对修复过程进行部分自动化,可以显著加速研究,同时保留使每个字符可读的微妙形态。

教计算机看穿损毁
作者将修复视为一种图像转换:计算机收到一张小而嘈杂的字符图像,并被要求生成该字符在干净、清晰情况下的样子。为此,他们基于一种称为生成对抗网络(GAN)的人工智能结构。一个网络(“生成器”)尝试将受损图像变为清晰图像,另一个网络(“判别器”)则判断结果是否看起来像真实、书写良好的字符。通过这种你来我往的对抗,生成器逐渐学会生成能欺骗判别者的更具说服力的修复结果。
更聚焦于细小笔画
常规图像工具常常遗漏竹简上最细微的墨迹,尤其是在背景斑驳且墨色微弱时。该团队在GAN的核心采用了一种称为U-Net的U形结构,以在宏观上下文与像素级细节之间取得平衡。他们将该网络中的常规构件替换为专门设计的局部残差密集块(Local Residual Dense Blocks)。这些模块鼓励系统重复利用有用模式,同时避免导致相邻笔画相互模糊的过度平滑。网络中间被强化的“瓶颈”部分进一步精炼最重要的特征,帮助模型在原件严重退化时也能区分真实笔画与噪声。
保持每个字符的骨架完整
一项关键创新是作者所称的有效连通域约束。该规则不是逐像素判断,而是关注字符中的主要墨迹区域:它们的大小以及中心位置。模型将其输出中的这些粗略墨迹“岛屿”与精心修复的参考图像中的对应区域进行比较,特别关注形成字符核心骨架的几个最大区域。如果某条主要笔画缺失、与另一笔合并或位置偏移,系统会受到惩罚并被迫调整。即使笔画断裂、边缘毛糙或墨迹渗入背景,这一简单的几何检查也被证明异常稳定。

数字修复效果如何
由于缺乏合适的数据集,团队自己构建了一个配对数据集,包含600张来自澧叶简牍的字符图像,每张都对应一张由专家精心修复的参考图。在该基准上,他们的方法在三项标准图像质量度量上优于若干最先进方法,包括其他GAN、基于Transformer的模型和扩散模型。并列的视觉比较显示破损笔画更少、相邻笔线分离更清晰、背景杂乱更少。盲测中审阅结果的书法教师在笔画连续性、结构准确性和整体可读性方面给出了高分,且单独测试表明模型并非简单记忆训练数据。
让埋藏文字重回焦点
对非专业读者来说,结论明确:通过将专家对古文字的知识与为之量身定制的AI设计相结合,现在可以从曾被认为过于受损而无法利用的竹简中恢复出可辨认的文字。该模型不仅保留了字符是否存在的信息,还保留了笔画在空间上的相互关系,使输出对历史学家和语言学者具有实际意义。尽管该方法仍依赖有限的训练数据,且尚未扩展到丝绸或石刻等其他材质,但它指向了一个未来:许多脆弱且难以辨读的文本可以通过数字化修复并大规模研究,从而为早期帝国的日常生活打开新的窗口。
引用: Li, X., Huang, Y., She, S. et al. Restoration of Liye Qin slips characters using generative adversarial network with effective connected component constraint. npj Herit. Sci. 14, 194 (2026). https://doi.org/10.1038/s40494-026-02434-6
关键词: 竹简修复, 中国古代手稿, 生成对抗网络, 数字文化遗产保护, 手写字符恢复