Clear Sky Science · zh

使用增强图检索框架的非物质文化遗产传承人视觉信息识别与问答

2026-02-20 · 返回目录

将隐匿的传统带入数字时代

在中国各地，戏曲、剪纸、皮影等传统活态艺术的传承人守护着世代传承的技艺。然而我们关于这些传承人的信息往往分散在网络上的零散档案和图片中，使公众乃至研究者难以找到可靠资料。本文提出了一个新的计算框架，自动读取非物质文化遗产（ICH）传承人的“视觉名片”，并利用先进的大型语言模型进行问答和生成可读的报告。

从图卡到结构化知识

许多文化机构现在发布结合文本、版式和简单图像的数字名片来介绍每位传承人：姓名、技艺、地域、简介等。人类可以快速浏览这些信息，但计算机面临挑战，因为名片来源地域广泛、设计风格不一，且常包含缺失或受损的文字。作者构建了一个包含5,237张中国非物质文化遗产传承人名片的大型数据集，每张名片都被精细标注了十类关键信息，比如项目编号、项目名称、地区、性别、工作单位和简短描述。他们首先使用光学字符识别（OCR）读取文本并记录每个文本片段在名片上的位置，然后借助大型语言模型进行标签规范化，最后由人工专家进行校验。

教会机器识别版式与语义

为将每张名片转为干净的结构化数据，研究团队设计了一个“图-检索”（Graph-Retrieval）模型，模拟人类同时利用文本和版式信息的方式。名片上的每个文本片段成为图中的一个节点，片段之间的空间关系——左、右、上、下——构成边。基于RoBERTa和双向LSTM的语言模块学习文本含义，并辅以一个近5,000条条目的专用非遗术语词典，以便正确处理不常见的技艺名称或地方用语。在此基础上，图神经网络将信息在相邻节点间传播，从而改善对每个文本片段所属类型的预测（例如判断地名是地区还是工作单位）。

使系统对真实世界的杂乱性更鲁棒

真实的传承记录很少完美：名片可能磨损、裁切或扫描不佳。为应对这些问题，作者从数据增强中引入三种策略来强化图模型。他们随机屏蔽部分节点，使系统学会从上下文推断缺失信息；随机删除部分边，以容忍版式变化；并加入位置注意力机制，捕捉名片元素的整体“阅读顺序”。这些技巧共同帮助模型推广到多种风格和质量的文档。在与九种知名对比方法的测试中，新方法在非遗名片数据集上取得了最高的宏平均F1分数（0.928），并在五个公开文档基准上领先，表明其在遗产之外也具有广泛适用性。

通过循环检索实现更智能的问答

识别文本只是第一步；论文的第二项贡献是提出Loop-RAG（循环检索增强生成）策略，与GPT-4、Llama、ChatGLM等大型语言模型协同工作。传统的检索增强系统通常只检索一次背景文档然后生成答案，这可能仍然不完整或有误。相反，Loop-RAG引入了一个内循环，反复检查语言模型当前答案是否拥有足够信息；如果不足，则触发在向量化的非遗知识库中进行有针对性的再次检索。外循环则分析大量历史交互以学习哪些检索路径和提示风格最有效，逐步减少无效检索和事实性错误。

从原始记录到可信的文化叙事

借助这一组合框架，系统可以自动生成关于传承人的短报告——概述其技艺、地域、代表作品和身份状态——并回答成千上万关于人物与实践的事实性问题。以BLEU、METEOR和ROUGE等标准语言质量评分衡量，使用GPT-4的Loop-RAG在表现上优于纯语言模型和更简单的检索方案，同时在问答准确率上也达到最佳（F1最高可达0.941），即便只提供少量示例亦能保持良好性能。对于普通读者而言，这意味着未来的文化遗产平台可以按需提供交互式、可信赖的传统艺术解读，将分散的数字记录转化为丰富、可导航的故事，帮助活态传统得到可见性与认可。

引用: Wang, R., Zhang, X., Liu, Q. et al. Visual information identification and Q&A of intangible cultural heritage inheritors by using enhanced Graph-Retrieval framework. npj Herit. Sci. 14, 113 (2026). https://doi.org/10.1038/s40494-026-02384-z

关键词: 非物质文化遗产, 信息抽取, 图神经网络, 检索增强生成, 数字人文