Clear Sky Science · zh

在四个人工智能平台上基准测试大型语言模型与已发表临床试验结论的一致性

2026-04-02 · 返回目录

这对日常医疗为何重要

医生依赖大型临床试验来判断哪些治疗是安全且有效的。与此同时，新兴的人工智能工具在阅读和总结医学研究方面越来越擅长。该研究提出了一个对患者和临床医生都很重要的简单问题：当这些工具阅读与人类专家相同的试验时，它们是否在关于哪些有效、哪些无效的最终结论上达成一致？

研究者如何测试这些人工智能工具

研究团队聚焦于发表于新英格兰医学期刊的20项知名临床试验，涵盖心脏病、中风、糖尿病、癌症和脑外科。这些试验之所以被选中，是因为其设计严谨、报告清晰，构成了一个强有力的测试场景。研究者并未将完整文章输入人工智能系统，而只提供包含数字的表格和图表，例如事件发生率和结局图表。这迫使工具依赖数据本身，而非简单复制作者的书面摘要。

Figure 1. 不同的人工智能工具如何解读相同的医学试验并与临床医生的结论对齐。

对人工智能系统的具体要求

测试了四种广泛使用的大型语言模型：ChatGPT、Gemini、Grok3 和 Claude。每个模型都收到相同的标准化提示，要求以五种方式解读数据。模型必须解释总体发现、阐明统计学意义、将结果与患者护理联系起来、指出研究局限，并建议如何将这些发现应用于实践。两名受过训练的分析师随后将每个 AI 答复与原始试验论文进行比较，并在上述五个方面按零到五的量表对表现进行评分。

人工智能与人类结论的一致性如何

在与已发表试验结论的一致性方面，ChatGPT 表现最强，在20项试验中获得了完美的中位总分 25 分（满分 25 分）。Gemini 紧随其后，得分为 21 分，而 Grok3 和 Claude 的中位得分分别为 18 分和 17 分。四种工具在说明研究结果对患者重要性的方面表现最佳，尤其是 ChatGPT 在每个领域均名列前茅。Gemini 在发现研究弱点和潜在混杂因素方面也表现良好，而 Grok3 与 Claude 在识别局限性和提供可行治疗建议方面则不够可靠。两位人工评分员之间高度一致，表明评分方法本身具有稳定性。

Figure 2. 逐步展示人工智能如何将试验数据转化为关于治疗及其局限性的判断。

关于隐性训练数据与现实世界安全性的警示

尽管这些数字看起来很亮眼，作者仍警告应谨慎解读结果。他们使用的试验较为知名，很可能出现在这些人工智能系统的训练数据中。这意味着这些工具可能已经“熟悉”这些研究，可能是在回忆先前见过的模式，而不是从所提供的表格中独立推理。对产生每个答案的系统缺乏盲法也为评分引入了微妙的人为偏差空间。此外，所选试验大多具有明确、积极的结论，这代表一种最佳情形，而非通常影响现实世界决策的复杂且不确定的研究情况。

这对未来医疗意味着什么

对普通读者而言，结论是：某些人工智能工具，尤其是 ChatGPT 和 Gemini，往往能够阅读医学试验数据并与专家结论一致，至少在那些知名且高质量的研究中如此。这表明它们可能成为总结复杂研究和整理证据的有用助手，但尚不足以取代医生或研究人员。它们的训练历史不透明、不同平台间表现存在差异，且其回答尚未被证明足以用于直接的治疗决策。作者认为，应将人工智能视为能够筛选数字并突出模式的强大助理，而临床医师仍应对判断、同理心和患者护理的最终决策负责。

引用: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

关键词: 大型语言模型, 临床试验, 医学人工智能, 证据综合, 临床决策支持