Clear Sky Science · zh
大型语言模型在快速临床信息支持中的潜力:来自急性肾损伤知识测试的证据
这对患者和医生为何重要
当医生面对病情严重的患者,尤其是可能出现肾功能衰竭的人时,他们必须快速且基于充分信息地做出决定。本研究提出了一个发人深省的问题:现代人工智能工具——即大型语言模型——能否比现实中的临床医生更快、更准确地回忆并应用有关急性肾损伤的医学事实?如果能,这对未来的医疗会意味着什么?

常见但危险的肾脏问题
急性肾损伤是肾功能突然丧失,常在病房和急诊室出现。约每十名住院患者中就有一人可能出现急性肾损伤,而在重症监护病房中这一比例可高达一半。如果被漏诊或治疗过晚,患者可能遭受不可逆的损伤并发展为慢性肾脏疾病——这是一种长期病症,影响全球超过十分之一的人群,并与更高的死亡率、心脏病风险及生活质量下降相关。因此,医生被期望能够尽早识别急性肾损伤并按照既定指南进行管理。
搭建人机对决的测试
为检验人工智能在该领域的表现,研究者在2025年德国一次大型内科会议上组织了一场“AI 对 人类”的挑战。在一个自助展位上,123名志愿者——从医学生到主任医师不等——参加了相同的在线测验。测试基于两个简短的关于肾脏问题的患者案例和15道基于指南的选择题,全部以德语出题。与此同时,来自若干知名厂商的13个公开可用的语言模型在默认设置下一次性接收了完全相同的病例和问题。该设计使团队能够直接比较临床医生与机器在这部分肾脏知识上的准确性和反应速度。
人类与机器的表现如何
结果十分显著。人类参与者平均答对不到一半的问题,得分约为15分中的7分。学生、住院医师与资深医生之间的得分差异不大,但学生的分布最为分散。相比之下,语言模型的平均得分为15分中的13.5分,正确率约为90%。多个模型取得了满分,表现最差的模型仍与大多数人类相当或更好。只有大约六分之一的参与者达到了得分最低的模型的水平,极少有人接近表现最强的系统。速度差距同样显著:有一个模型在约30秒内完成了整份测验,而人类平均则需要超过七分钟。

极速答案的前景与风险
这些发现表明,大型语言模型可能成为获取医学事实的强大且低成本的快速工具,尤其适用于时间和人员有限的环境,例如急诊室、夜班或偏远诊所。研究还暗示了提问方式的重要性:在一项小规模的后续测试中,当要求模型以一位经验丰富的医生在生死攸关情境下作答时,其表现甚至更好。尽管如此,作者强调该测试仅在受控的测验环境中衡量了基于指南的记忆性事实调用,而非完整的临床推理、床边判断或真实世界的患者结局。
为何人类判断仍然优先
研究者强调,当前的语言模型也存在严重弱点。它们可能“幻觉化”,自信地生成错误或误导性陈述——在指南没有明确答案的罕见或复杂病例中,这一风险可能会增大。它们无法对患者进行体检、捕捉微妙的体征或传达同情与信任,而这些都是优质医疗的核心。伦理和法律问题也不容忽视:模型会随时间变化,可能以不透明的方式处理数据,且无法对医疗决策承担责任。因此,作者主张此类系统应仅作为知识检索和决策辅助的支持工具使用,需配套明确的保障措施、定期测试和严格的隐私规则。
对非专业读者的要点
简而言之,本研究表明现代语言模型在关于急性肾损伤的聚焦书面测验中可以超越许多医生和学生,且所需时间仅为后者的一小部分。这使它们成为快速查询医学事实的有前景的助手。但由于它们仍会做出自信的错误并缺乏人类的理解,它们不能替代临床医生。在可预见的未来,最佳的护理将来自快速、设计良好的工具与受过训练专业人员的细致、富有同情心的判断相结合。
引用: Russ, P., Bedenbender, S., Einloft, J. et al. Potential of large language models for rapid clinical information support: evidence from acute kidney injury knowledge testing. Sci Rep 16, 11224 (2026). https://doi.org/10.1038/s41598-026-46846-7
关键词: 急性肾损伤, 大型语言模型, 临床决策支持, 数字健康, 肾脏学