Clear Sky Science · zh

使用大型语言模型识别中文与俄文外交话语中的暗示

· 返回目录

解读言外之意

当外交官在公开场合发言时,他们不说的话往往与所选用的措辞同样重要。这项研究探讨了现代人工智能能否在中国和俄罗斯外交部记者会中捕捉到微妙的暗示与含蓄信息——这些信号常被人类听众忽视,但却可能影响国际关系。

Figure 1
Figure 1.

暗示为何在国际事务中重要

外交语言被设计得谨慎且礼貌。各国政府需要维护自身利益,同时避免公开挑衅对手或引发公众恐慌。因此,官员常依赖暗示——表面上中性但实际上含有批评、警告或表态意图的短语。误读此类暗示过去曾导致国家间危机与不信任。跨语言与文化背景下理解这些间接信息尤其困难,因为不能假定共有的背景知识。

从经典理论到智能机器

几十年来,语言学家与哲学家研究说话者如何传达超出字面的话意。早期理论主要关注说话者意图,假定理性的听者能够重建隐含意义。后来的“认知语用学”工作强调,对暗示的理解也取决于听者的心理过程、文化背景与情境。基于这些观点,作者将暗示描述为分层的:可见的措辞(语词—语义层)、背后的文化化思维方式(语言—认知层),以及说话者的动机与策略,例如批评、警告或保全面子(动机—语用层)。

AI 系统如何构建

研究者收集了近1400段来自2024年中俄外交部官方记者会的问答片段。语言学专家手工标注了498个发言人使用暗示而非明说的实例。他们将这些实例分为三类:“固定暗示”具有稳定、重复的措辞(例如常见的外交套话)、“文化暗示”其含义依赖共享文化知识与隐喻,以及“情境暗示”需要通过仔细观察具体情形与动机才能识别。这些例子被用来构建外部知识库,并为大型语言模型设计一套推理规则。

教模型逐步思考

团队结合了两种 AI 技术。检索增强生成(Retrieval-Augmented Generation,RAG)使模型在处理新的记者会回答时能够从定制暗示数据库中调取相关示例。链式思维(Chain-of-Thought,CoT)提示则迫使模型逐步推理:识别语言、将回答拆分为句子、检查已知暗示模式、判断句子是否通过某种策略(如陈述事实、对比或讽刺)表达特定动机(如批评或警告),并最终将其标注为固定、文化、情境暗示或“无暗示”。系统还进行自检,以确保隐含意义确实不同于字面措辞。

Figure 2
Figure 2.

效果如何?

为测试系统,作者使用了两种语言的2025年新记者会数据。总体上,增强模型在发现隐含信息方面表现可信:它能捕捉到大多数真实暗示(召回率高),并在捕获与误判之间取得了可观的平衡(俄语 F1 分数为 0.83,中文为 0.76)。在两种语言中,它对固定暗示表现尤为强劲,支持稳定模式最易为机器学习的观点。然而,它在识别中文的文化与情境暗示方面比俄语更吃力。作者将这一差距归因于风格差异:俄语外交话语常用生动隐喻与鲜明对比,较清晰地传达批评或警告;而中文话语更多依赖中性套语、成语与依赖情境的礼貌表达,这些更难被模型从字面话语中区分出来。

错误揭示了什么——以及如何改进

细看错误后,作者发现三类常见问题。有时模型“过度解读”文本,在不存在隐含意义时虚构出暗示;有时它检测到暗示但分错类型,使固定与情境案例的界线模糊;还有时它仅因出现某些敏感词或熟悉模式,就把平实措辞当作暗示。为应对这些弱点,论文建议增加大量明确的“无暗示”外交短语作为负例,强制系统将推断更紧密地锚定于实际问题与周边情境;对句子与知识库进行多次重写比对;并加入预过滤与自评步骤,询问:这是已经明确表达的,还是的确含蓄?

对普通读者的意义

对非专业读者而言,核心结论是大型语言模型已能帮助分析人员筛检大量官方声明并标出政府可能言外之意的地方。与此同时,研究也凸显了外交深受文化、历史与风格影响——这些因素即便对先进的 AI 来说仍具挑战性。通过将语言学理论与现代 AI 工具结合,这项工作指向更可靠的全球政治微妙信号跟踪系统,但也明确指出,人类判断与跨文化专长在解读未言明内容时仍不可或缺。

引用: Guo, Y., Wang, X. Hint recognition in Chinese and Russian diplomatic discourse using large language models. Sci Rep 16, 5751 (2026). https://doi.org/10.1038/s41598-026-36338-z

关键词: 外交语言, 隐含意义, 大型语言模型, 跨语种分析, 检索增强生成