Clear Sky Science · zh
将大型语言模型植入临床诊断
为医生提供更智能的帮助
当你去看医生时,通往正确诊断的过程很少是一问一答的。它是一个细致的来回过程,医生会询问你的病史、给你做体检、下单检查,然后权衡所有线索。本研究考察当下强大的人工智能语言工具是否能真正帮助这整个过程,而不仅仅是回答简短的测验式问题。研究人员构建并测试了一个旨在更像真实临床伙伴的专用系统,并探索将医生与该系统配对如何在发现病因时提高准确性和速度。

为什么门诊对机器来说困难
许多新闻报道强调大型语言模型在医学考试或简短问答中表现良好。但真实门诊更为混乱。医生常常只从问题的简短描述开始,必须慢慢收集细节:症状持续了多久、体检发现是什么、化验或影像显示了什么。在每一步他们都会调整或细化自己的判断。早期研究大多在信息已被整齐列出的情况下测试AI。作者认为这与真实临床实践非常不同:遗漏一个关键问题或检查就可能导致错误诊断。
从真实病例构建测试平台
为了以更现实的方式评估AI,团队创建了ClinDiag-Framework,该框架设置了一个“医生”AI与一个仅在被询问时释放患者事实的“信息提供者”之间的对话。他们还汇编了ClinDiag-Benchmark,这是一个包含4,421例来自32个专科的真实临床病例的大型集合,涵盖疑难病例、急诊就诊和罕见病。每个病例被分解为模拟临床记录的阶段:初始主诉、病史、体格检查、检验以及最终诊断。这一设置让研究人员不仅能看到AI是否给出正确答案,还能评估它在遵循人类医生受训执行的各个步骤方面的表现。
训练AI以更像医生地思考
作者随后构建了ClinDiag-GPT,这是一个在7,616例真实病例上进行微调的定制语言模型,这些病例被改写为模仿医患交互的多步骤对话。在这些训练案例中,AI“医生”必须提出有针对性的问题、决定要做的检查、请求确证性测试,然后才能做出诊断。系统学习遵循常见的临床习惯,例如始终询问既往疾病和家族史,并寻求有力证据而不是停留在模糊标签上。在与几种领先的通用模型对比测试中,ClinDiag-GPT在完整诊断流程中的准确性最好,并且在各个阶段犯错更少,包括减少了诸如过早跳到偏好诊断或在出现冲突线索时仍固守早期猜测等认知捷径的迹象。

AI与人类医生匹配得怎样?
即便经过这样的训练,所有模型在现实的逐步诊断中表现明显逊于简单的问答测试,凸显了真实临床工作的高要求。不过,ClinDiag-GPT表现突出:它收集的信息更完整、推理更清晰、误判检验结果更少。研究人员还探索了诸如结合多个AI“医生”代理或加入AI批评者等附加方法,但这些并未可靠地提升表现。更大的收益来自于针对真实诊断工作流程的定向微调。
医生与AI并肩工作
也许最实用的测试是三方比较:单独的医生、单独的ClinDiag-GPT,以及医生与ClinDiag-GPT协作。在60例混合病例的样本中,协作组的诊断准确率最高且完成病例所用时间比单独工作的医生更少。提升在罕见和尤为棘手的病情中最为显著,此时模型广泛的医学记忆能补充医生的临床直觉与判断。与此同时,AI仍然漏判或处理不当许多病例,并且往往表现得比结果所支撑的更有信心,这强调了需要谨慎的人类监督。
这对患者意味着什么
研究表明,当今领先的语言模型还远不能在真实门诊中取代医生,但像ClinDiag-GPT这样的专用系统已经可以作为有用的助手。通过促使诊断过程更为全面,并在复杂或罕见病例中提供额外思路,它可以支持医生做出更好、更快的决策。对患者而言,这指向了一个未来:你的医生在后台与一位低调的AI伙伴协同工作,利用其广泛的医学知识减少遗漏线索,并帮助确保复杂诊断以更谨慎的方式达成。
引用: Chen, X., Zhou, H., Yi, H. et al. Grounding large language models in clinical diagnostics. Nat Commun 17, 4401 (2026). https://doi.org/10.1038/s41467-026-70274-w
关键词: 临床诊断, 医学人工智能, 大型语言模型, 医生与AI协作, 诊断准确性