Clear Sky Science · zh
SCAD:用于中文诗歌典故检测的自监督对比学习
古诗中的隐秘信息
古典中文诗歌充满了对著名故事、传说和历史人物的隐含指涉。这些“典故”为诗歌增加了情感深度和文化厚度,但也让现代读者——以及计算机——难以理解。本文介绍了一种新的人工智能系统 SCAD,能够在大规模上自动发现这些埋藏的典故,从而为阅读、教学和研究中国文学的智能数字工具打开了可能性。
典故在诗歌中的重要性
几个世纪以来,中国诗人将典故作为一种文学速写来使用。通过暗示一个广为人知的故事——例如世外桃源或伤心的河神——他们只需寥寥数语便能表达复杂的情感。问题在于这些暗示常常很微妙。一首诗可能从未提到所借用故事的名字;相反,它通过唤起与该传统相关的地点、物件或意象来间接指涉。由于相同的词在不同语境下可能指向不同的故事,即便是先进的计算系统也难以可靠地识别诗中使用的是哪个典故,尤其是在有成千上万个候选项且标注训练数据有限的情况下。

教会机器通过比较来学习
作者们采用了一种称为自监督对比学习的策略,并针对古典中文进行了专门调整。与其让人工为每首诗标注正确的典故,他们从一个经过整理的网站构建了大量的诗—典故对,该网站记录了超过14,000首诗引用1,025个具体典故的方式。对于每个真实配对——一首诗确实使用了某个故事——他们通过将同一首诗与许多无关的典故配对,自动生成“负样本”。SCAD通过在内部表示空间中把相关的诗—典故文本拉近、把无关的推远,来学会将真实配对与虚假配对区分开。
为古代汉语文本调优的模型
在系统内部,SCAD基于 SikuBert 构建,该语言模型在大量前现代中文文献上进行了训练。系统将诗歌与典故(包括其原始出处段落)一起输入到联合编码器,使模型能关注诗中具体短语与故事细节之间的相互作用。向该编码器添加了轻量级的“适配器”模块,因此只需训练少量新参数,从而实现高效微调。改进的损失函数对最难的负样本——那些最具误导性的典故——给予更高权重,使 SCAD能从最常见的错误中学习,而不仅仅是从简单例子中学习。
优于现有方法
在与多种替代方法的比较测试中——包括早期的深度学习系统、基于规则的方法,甚至通用大型语言模型——SCAD 在为诗歌命名正确典故方面显示出明显更高的准确率。它不仅平均上将正确答案排得更靠前,而且在大约五分之四的测试案例中将其识别为首选,这比以往技术有明显提升。消融实验表明,每一项设计选择都有贡献:使用古典而非现代语言的预训练、包含典故的完整来源文本、添加适配器以及对困难负样本重新加权,都提升了性能,尤其是在罕见或微妙的典故上。

发现新链接并构建知识地图
除了纯粹的准确率,作者们还探索了 SCAD 如何泛化并解释其决策。在“零样本”测试中,他们故意在训练中移除某些著名典故及所有相关诗作,然后要求 SCAD 识别这些典故。系统仍表现强劲,表明它学到的是诗人如何暗示故事的一般模式,而非记忆固定清单。为深入理解决策过程,团队应用了一种称为 LIME 的可解释性方法,突出显示对 SCAD 预测影响最大的诗中具体词语。利用这些信号,他们提取了近 10,000 个“典故词”并将其组装成一个知识图谱,连接诗歌、唤起意象的短语与它们唤起的故事——这是可用于搜索、学习工具与互动测验的资源。
将古老的暗示带入数字时代
本质上,这项工作表明,借助合适的训练信号与架构,机器可以开始捕捉古典中文诗歌中嵌入的文学示意与暗示。SCAD 不仅能检测一首诗在悄然引用哪个故事,还能泛化到新的典故,并帮助绘制将诗歌相互联系及与更广泛文化传统相连的复杂参考网络。对于读者、学生和学者而言,基于这种方法构建的系统可以成为指引,揭示世界上最富典故的文学作品中隐藏的意义层面。
引用: Shi, B., Bu, W., Li, X. et al. SCAD: self-supervised contrastive learning for allusion detection in Chinese poems. Humanit Soc Sci Commun 13, 293 (2026). https://doi.org/10.1057/s41599-026-06627-z
关键词: 古典中文诗歌, 文学典故, 对比学习, 数字人文, 自然语言处理