Clear Sky Science · zh
权力的回声:调查美中大型语言模型的地缘政治偏见
这对普通读者为何重要
当你向 AI 聊天机器人询问国际事务时,可能会假设它是中立的。本文显示,来自美国和中国的领先系统的回答,可能在不显眼处倾向于其所在国家的政治视角。理解这些隐性倾向如何产生及其强度,有助于公民、记者和决策者判断何时应信任 AI、何时应对其言论持谨慎态度。
研究者如何测试这些聊天机器人
作者比较了两款先进的聊天机器人:来自美国 OpenAI 的 GPT-4o 和一家中国公司推出的 DeepSeek-R1。他们构建了包含 50 个关于全球政治、战争、人权和有争议地区的问题,模拟人们在社交媒体和在线论坛上常见的提问。所有问题均以英语通过两款工具的公开网页界面提出,使用简单的一次性提示,类似普通用户的操作。完整的问题与回答数据集随后被公开分享,以支持后续研究。
他们在回答中测量了什么
为超越直观印象,研究团队结合了数字化与人工分析。首先,他们将每个回答转换为能捕捉其含义的数值表示,并测量两套系统在每个问题上的接近程度或差异。其次,他们让模型评估在这些问题上美国与中国观点可能的分歧强度。第三,他们手工审查文本,关注语气、示例选择以及哪些事实被强调或淡化。这种方法组合使他们能够检测明显的分歧以及更为微妙的叙事差异。
聊天机器人在哪些方面一致,哪些方面不一致
令人意外的是,即便在气候责任、COVID-19 起源或纳粹遗产等敏感议题上,两款系统常常给出大体相似的回答。它们都倾向于呈现平衡的概述并避免极端主张。然而,关键差异仍然显现。GPT-4o 表现出作者所称的“温和”的西方中心偏向,例如在解释中强调自由民主理念或北约与联合国的作用。相比之下,DeepSeek 有时更直接呼应中国国家叙事,并在少数情况下拒绝回答在中国高度敏感的话题,如台湾地位或特定国内争议。这类拒绝在网页界面层面表现为强制阻断,而不是模型能力上的简单缺失。 
叙事方式中的隐性引导
研究强调,最令人担忧的影响可能并非明显的审查,而是柔和的引导。在一些回答中,两款模型会在基本事实上一致,却以不同方式构建话语:一方可能强调个人自由与选举竞争,另一方则强调稳定、主权或集体福祉。随着时间推移,这类温和偏向可能塑造用户对“常识”的认知,尤其当他们将聊天机器人视为中立助手时更是如此。鉴于超过一半的美国成年人已经使用此类工具,而老年人更易受误导信息影响,即便是小幅、重复的引导也可能在不被察觉的情况下影响公众在战争、贸易争端或人权等问题上的看法。 
这对个人与政策意味着什么
作者总结认为,美中两国的聊天机器人都带有地缘政治印记,但其行为并非政府立场的简单镜像。基于大规模、混合的全球数据进行训练似乎限制了完全的意识形态控制,导致公司在最敏感的话题上更多依赖主题屏蔽。不过,既有强制性审查也有温和的叙事取向,这引发了关于信任、透明度以及大规模舆论塑造风险的问题。对读者来说,结论很直接:将 AI 关于全球事务的输出视为众多观点之一,而非中立的事实来源,并辅以人工判断和多元信息来源。
引用: Pacheco, A.G.C., Cavalini, A. & Comarela, G. Echoes of power: investigating geopolitical bias in US and China large language models. Humanit Soc Sci Commun 13, 675 (2026). https://doi.org/10.1057/s41599-026-06577-6
关键词: 地缘政治偏见, 大型语言模型, ChatGPT, DeepSeek, 政治传播