Clear Sky Science · zh
大型语言模型在急诊护理中的作用:一项全面基准测试研究
这对可能去急诊的人为何重要
急诊室比以往任何时候都更为繁忙,等待时间更长,照护危重病人的人员却在减少。本文提出了一个几乎影响每个人的问题:现代人工智能系统,即大型语言模型,能否在急诊科安全地帮助医生和护士更快、更聪明地工作?通过让多款领先的人工智能接受一系列医学测试和模拟急诊案例,研究人员探讨了这些工具距成为值得信赖的急诊“副驾驶”还有多远。

急诊室承受的巨大压力
论文首先概述了急诊护理中日益加剧的危机,尤其是在美国。人口老龄化和慢性病上升推动了创纪录的急诊就诊人数,单在2022年就超过大约1.55亿人次。与此同时,医院面临护士和医生严重短缺,过去几十年人均床位也在下降。分散的医疗体系使得协调护理变得更困难,增加了延误和错误的风险。在这种背景下,作者主张迫切需要新的工具来帮助临床人员对患者进行分诊、快速决策和记录护理,而不增加他们的工作负担。
研究人员如何测试医疗人工智能
为了评估现有人工智能在类似急诊环境中的实际能力,研究团队设计了两部分评估。首先,他们在一个来自MedMCQA的多项选择题大集中测试了18种不同的语言模型,题目覆盖12种常见的急诊主诉,如胸痛、呼吸困难、头痛和腹痛。此阶段测量了基础医学知识:人工智能能否在数千道题中从四个选项里选出正确答案?其次,他们从首轮中挑出表现最好的五款模型,要求它们按步就班处理12个逼真的急诊病例,像医生一样逐步推理。对于每个病例,人工智能需要总结患者情况、给出分诊紧急度评分、提出关键的后续问题、建议处理步骤,并在随时间逐步揭示生命体征、病史、体检发现以及检验和影像结果时,列出可能的诊断。
哪些模型掌握事实——哪些能进行推理
在纯事实回忆方面,几款模型表现出色。一款名为LLaMA 4 Maverick的专用系统在医学题目上总体准确率约为91%,紧随其后的是LLaMA 3.1、GPT-4.5、GPT-5和Claude 4。这些顶级模型在不同主诉上都表现稳定,表明前沿人工智能在教科书式医学知识上可能已接近上限。中端系统远远落后,有些得分接近60%,在伤口处理和呼吸问题等关键领域表现薄弱。然而,当任务从回答孤立问题转向在信息丰富且不断变化的病史中进行推理时,差异变得更明显。在这些临床模拟中,GPT-5明显脱颖而出:它给出的病例总结最准确、最完整,提出的后续问题最有帮助,建议的下一步处理既合理又安全,并提供了最详尽且顺序清晰的可能诊断清单。
优势、弱点与安全顾虑
临床人员对每款人工智能的输出在准确性、相关性和安全性方面进行了仔细评分。GPT-5不仅总体评分最高;它也是少数在病例复杂性增加时表现保持稳定或有所提升的模型,同时将幻觉和严重错误控制在约2%以下。其他模型表现出不同的弱点模式:有些倾向于漏掉次要诊断或将轻微问题置于危险问题之前;有些变得过于谨慎或笼统,或过早固定于单一诊断。总体来看,大多数系统在分诊等级评定时低估了患者的病情,这种保守偏差如果不纠正可能会延误紧急治疗。研究结果强调了一个关键点:掌握医学事实并不等于能在信息不完整、混乱且不断变化的情境下,将这些事实可靠地编织成安全、逐步的决策。

这对未来急诊就诊可能意味着什么
作者得出结论:尽管几种现代人工智能在医学知识层面相互接近,GPT-5特别表现出的新一等级推理能力可能使其在急诊科作为决策支持工具具有实用价值。他们强调这些系统尚未准备好取代临床人员或独立行动。相反,近期最有希望的角色是作为受监督的助理——帮助分诊护士估计紧急程度、起草患者摘要、建议问题或检查项目,并核查是否考虑到严重诊断。研究还强调需要在真实临床环境中进行更多研究,配以严格的安全检查和明确的使用规则。对患者而言,结论是谨慎乐观:人工智能在梳理医学问题方面正在进步,但其在急诊中的安全使用将依赖于审慎的设计、监管以及持续以支持而非取代医生和护士的人类判断为中心的原则。
引用: Naderi, B., Liu, L., Ghandehari, A. et al. The role of large language models in emergency care: a comprehensive benchmarking study. npj Artif. Intell. 2, 24 (2026). https://doi.org/10.1038/s44387-026-00078-2
关键词: 急诊医学, 大型语言模型, 临床决策支持, 分诊, 医疗人工智能基准测试