Clear Sky Science · zh
人工智能驱动的分级早期预警框架,解决院内死亡预测中的高误报率问题
为什么更智能的医院警报很重要
任何去过急诊的人都知道那里常常显得混乱:报警声不断,医护人员匆忙,危重患者随时到来。然而,最危险的患者有时最难及早发现,而旨在提醒医生的计算机系统常常鸣“狼”——产生的误报远多于真实紧急情况。本研究提出了一种名为 AI-TEW 的新型人工智能框架,旨在使医院预警系统更精准、更安静——这样当警报响起时,临床人员更有可能予以重视。
过多警报的问题
医院越来越多地使用计算机模型来预测新入院患者在住院期间死亡的风险。这些模型在论文或测试中看起来很出色,大多数时候能正确区分高风险和低风险患者。但在真实的急诊环境中,院内死亡很少见——通常每100例入院少于5例。这种不平衡意味着即便模型总体准确,也可能产生比真实警报多得多的误报。以往系统出现过约9/10“高风险”警报是错误的情况。这种大量可疑警报导致“警报疲劳”,护士和医生逐渐麻木,可能错过那些隐藏在噪音中的少数真正危及生命的病例。

一种新的两阶段安全网
为了解决这一问题,研究人员分析了来自中国和美国三家医院的174,292次急诊就诊记录。他们首先基于常规电子健康记录数据构建了若干机器学习模型:年龄、到达方式、分诊级别、血压和血氧等生命体征,以及肌酐或乳酸等常规实验室检查。在测试的七种方法中,一种名为 LightGBM 的方法表现最佳,能够在不同医院和不同时期稳定地区分存活者和死亡者。然而,即便是这一强模型在简单地将患者划分为“高风险”或“非高风险”时,仍会产生过多的假阳性。
从一个大警报到分层关注
AI-TEW 的核心创新在于重新思考如何使用预测结果,而不仅仅是如何计算它们。系统不是用单一阈值把患者标记为“高”或“非高”风险,而是创建分层。在第一阶段,每位患者得到一个风险评分。第二阶段用两个阈值将这些评分分为低、中、高三个风险等级。低风险层被调得非常安全——该组中有超过98–99%的患者存活,这有助于临床人员自信地降级监护。高风险层刻意设得很窄:只覆盖少数患者,但包含了更高比例的真实死亡病例。在一家大型医院,这一策略将被标记为高风险者中真实高危病例的比例(阳性预测值)从约11%提高到大约40%,同时保持低风险层极具安心效果。中风险组则进一步细分,使医院能根据病例的真实严重度匹配监护强度。
用大语言模型加入医学“常识”
即使有了更智能的分层,有些警报仍然值得怀疑,特别是对于数据不完整或相互矛盾的患者。为进一步精细化,研究团队增加了第三层,使用大语言模型——与高级聊天机器人相同类型的AI,但为医学推理进行了调优。对于每个高风险警报,这些模型会审查患者的关键发现并给出三种回应之一:相当于“是的,这确实看起来高危”、“不,这似乎不像被标记的那么危险”或“不确定,需要人工复核”。在内部和外部测试中,所有语言模型都保持了高敏感性,意味着它们很少漏掉真实死亡,但有几种模型明显减少了误报。其中一个模型 MedGemma 将高风险警报的准确率提升到近一半正确,这是对传统方法的重大改进。

让床边的风险评分更易理解
除了原始数字之外,该框架强调提供临床人员能快速理解的解释性信息。作者使用了一种技术,将每位患者的风险分解为若干贡献因素,突出显示例如极高的乳酸、低白蛋白和差的肾功能的组合如何强烈推动预测走向危险。这些模式与既有医学知识相符,让用户放心系统并非依赖神秘或不合理的信号。语言模型随后将这些因素转化为简短的通俗叙述,说明为何某位患者被置于特定层级,以及可能正在发展的哪些器官衰竭或感染。
对患者和医护人员的意义
简单来说,这项研究表明,在急诊护理中,使预测工具真正有用不仅仅是构建一个聪明的模型——更在于以正确的方式在适当时机向合适的临床人员发出警报。通过结合强有力的机器学习预测、将注意力集中在最需要处的分层结构,以及能剔除薄弱警报的最后“推理”层,AI-TEW 把一个嘈杂且常被忽视的警报系统转变为更值得信赖的指引。如果在实际临床中被采用并进行实时测试,这类框架可能帮助临床人员更早干预真正脆弱的患者,减少对稳定患者的不必要恐慌,并减轻已然紧张的急诊团队的认知负担。
引用: Wu, L., Mai, L., Wang, H. et al. Artificial Intelligence-powered tiered early warning framework addressing high false alarm rates for in-hospital mortality prediction. npj Digit. Med. 9, 346 (2026). https://doi.org/10.1038/s41746-026-02522-8
关键词: 急诊科警报, 临床风险预测, 医学人工智能, 大语言模型, 院内死亡率