Clear Sky Science · zh

系统化基准测试表明，大型语言模型尚未达到传统罕见病决策支持工具的诊断准确性

2026-02-24 · 返回目录

这对患者和医生为何重要

当某人患有罕见病时，得到正确诊断常常需要数年的不确定期、反复检查和多位专家的会诊。与此同时，被称为大型语言模型的强大人工智能系统正被视为可能改变医疗格局的工具。本研究提出了一个简单但至关重要的问题：这些新的 AI 聊天机器人在识别罕见遗传病方面，是否真的优于医生已经使用的专门工具，还是仍有差距？

罕见病与漫长的求医之路

尽管单个罕见病影响的人数相对较少，但此类疾病超过一万种，合计可能影响多达十二分之一的人群。许多患者经历长达五到七年的“诊断漫游”，才有人能指出病因。对于遗传性疾病来说，一个关键步骤是将患者的症状组合、化验结果和影像发现，与已知疾病模式进行匹配。已有的成熟计算程序通过使用标准化的医学特征词汇，帮助在数千种可能的疾病中进行搜索。

将聊天机器人与传统工具进行比较

研究者收集了超过五千例真实但匿名化的确诊罕见遗传或染色体疾病病例。每个病例都被小心地转换为结构化格式，使用统一的医学词典编码患者的年龄、性别、症状和检查结果。基于这些结构化记录，团队自动生成了可供七种不同语言模型阅读的简短病例叙述，包含通用系统和专门在医学文本上训练的模型。与此同时，他们将相同的结构化数据输入 Exomiser——一种广泛使用的罕见病决策支持程序，但未提供任何基因测序信息，以保证比较的公平性。

如何评分谁找到正确的疾病

比较聊天机器人和传统软件的答案并非易事，因为语言模型以自由形式文本回应，可能使用不同的疾病名称或不同的详细程度。为了避免依赖人工判断答案是否“足够接近”，团队将每个建议诊断映射到一个统一的疾病目录。如果模型的建议与确切疾病、等效名称或明显包含真实病情的略微更一般化的条目相匹配，则计为正确。随后，他们衡量正确答案在模型排序列表中的位置——第一位、前三位或前十位中的某一位置。

正面对比显示了什么

在全部 5,213 个病例中，Exomiser 明显优于所有被测试的语言模型。仅使用症状信息时，Exomiser 在约三分之一的病例中将正确诊断排在首位，并且在远超一半的病例中将其排入前十名。表现最好的语言模型（一个注重推理的系统）在不到四分之一的病例中位列第一，在略多于三分之一的病例中进入前十名。其他以医学为主的模型表现明显更差，而一个非常大型的医学模型几乎从未建议出正确的疾病。这些模式在研究者分别查看心脏、脑或免疫相关疾病时仍然成立，且在按症状描述详尽程度分组时亦是如此。

这对 AI 在诊断领域的未来意味着什么

本研究表明，尽管大型语言模型在语言处理方面能力令人印象深刻，但就仅凭症状描述诊断罕见遗传病而言，当前它们仍不如专门工具可靠。它们仍可作为辅助工具——例如帮助医生考虑可能性或以通俗语言解释病情——但在涉及生命和长期延误的诊断时，不应取代已有的成熟软件。作者认为，最有前景的路径是将语言模型融入精心设计的诊断流程，使其与值得信赖的生物信息学工具并肩工作，而非替代这些工具。

引用: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5

关键词: 罕见病, 医学诊断, 大型语言模型, 临床决策支持, 遗传性疾病