Clear Sky Science · zh

权力的回声：调查美中大型语言模型的地缘政治偏见

2026-03-25 · 返回目录

这对普通读者为何重要

当你向 AI 聊天机器人询问国际事务时，可能会假设它是中立的。本文显示，来自美国和中国的领先系统的回答，可能在不显眼处倾向于其所在国家的政治视角。理解这些隐性倾向如何产生及其强度，有助于公民、记者和决策者判断何时应信任 AI、何时应对其言论持谨慎态度。

研究者如何测试这些聊天机器人

作者比较了两款先进的聊天机器人：来自美国 OpenAI 的 GPT-4o 和一家中国公司推出的 DeepSeek-R1。他们构建了包含 50 个关于全球政治、战争、人权和有争议地区的问题，模拟人们在社交媒体和在线论坛上常见的提问。所有问题均以英语通过两款工具的公开网页界面提出，使用简单的一次性提示，类似普通用户的操作。完整的问题与回答数据集随后被公开分享，以支持后续研究。

他们在回答中测量了什么

为超越直观印象，研究团队结合了数字化与人工分析。首先，他们将每个回答转换为能捕捉其含义的数值表示，并测量两套系统在每个问题上的接近程度或差异。其次，他们让模型评估在这些问题上美国与中国观点可能的分歧强度。第三，他们手工审查文本，关注语气、示例选择以及哪些事实被强调或淡化。这种方法组合使他们能够检测明显的分歧以及更为微妙的叙事差异。

聊天机器人在哪些方面一致，哪些方面不一致

令人意外的是，即便在气候责任、COVID-19 起源或纳粹遗产等敏感议题上，两款系统常常给出大体相似的回答。它们都倾向于呈现平衡的概述并避免极端主张。然而，关键差异仍然显现。GPT-4o 表现出作者所称的“温和”的西方中心偏向，例如在解释中强调自由民主理念或北约与联合国的作用。相比之下，DeepSeek 有时更直接呼应中国国家叙事，并在少数情况下拒绝回答在中国高度敏感的话题，如台湾地位或特定国内争议。这类拒绝在网页界面层面表现为强制阻断，而不是模型能力上的简单缺失。

Figure 1. 美国和中国的人工智能聊天机器人如何通过回答中的细微偏向塑造全球政治话语。

叙事方式中的隐性引导

研究强调，最令人担忧的影响可能并非明显的审查，而是柔和的引导。在一些回答中，两款模型会在基本事实上一致，却以不同方式构建话语：一方可能强调个人自由与选举竞争，另一方则强调稳定、主权或集体福祉。随着时间推移，这类温和偏向可能塑造用户对“常识”的认知，尤其当他们将聊天机器人视为中立助手时更是如此。鉴于超过一半的美国成年人已经使用此类工具，而老年人更易受误导信息影响，即便是小幅、重复的引导也可能在不被察觉的情况下影响公众在战争、贸易争端或人权等问题上的看法。

Figure 2. 对比两个 AI 聊天机器人对政治问题的回答，以揭示它们观点一致与分歧之处。

这对个人与政策意味着什么

作者总结认为，美中两国的聊天机器人都带有地缘政治印记，但其行为并非政府立场的简单镜像。基于大规模、混合的全球数据进行训练似乎限制了完全的意识形态控制，导致公司在最敏感的话题上更多依赖主题屏蔽。不过，既有强制性审查也有温和的叙事取向，这引发了关于信任、透明度以及大规模舆论塑造风险的问题。对读者来说，结论很直接：将 AI 关于全球事务的输出视为众多观点之一，而非中立的事实来源，并辅以人工判断和多元信息来源。

引用: Pacheco, A.G.C., Cavalini, A. & Comarela, G. Echoes of power: investigating geopolitical bias in US and China large language models. Humanit Soc Sci Commun 13, 675 (2026). https://doi.org/10.1057/s41599-026-06577-6

关键词: 地缘政治偏见, 大型语言模型, ChatGPT, DeepSeek, 政治传播