Clear Sky Science · zh
针对分布转移的代价感知放弃的保形选择性预测,用于在临床分诊中的安全性
这对患者和临床医师为何重要
当重症监护中的病人开始向脓毒症发展时,每一小时都可能决定生死。医院正求助于人工智能(AI)来及早标记这些高风险病人,但大多数系统仍像过于自信的神谕:即便在不确定或遇到新类型病例时也总是给出答案。本文探讨了一种不同的方法——一种知道何时应发声、何时应将病例交回给人类临床医师的 AI 助手,其明确目标是在医院条件随时间变化时仍能保障患者安全。 
更聪明的“我不确定”
作者构建了一个用于早期脓毒症预测的分诊框架,该框架不强迫模型对每位患者都做出决策。相反,它允许系统要么给出预测,要么将病例交由临床医师处理。关键思想是将问题视为代价问题:漏诊真正的脓毒症病例远比多报一次警或请求人工复核代价更高。模型在过去的重症监护数据上训练,然后校准,使其概率分数与现实相匹配。在此基础上,它为每次预测包裹一个不确定性“外壳”,即一个几乎总能包含真实答案的小集合。系统采用一个透明且易于理解的规则:若对最可能标签的置信度低于选定阈值,则将病例交由临床医师;否则直接预测。
为不断变化的医院环境而设计
临床 AI 的一大担忧是医院会演变——治疗方法、患者构成和记录实践会在数月或数年内发生变化——因此昨日有效的模型今日可能不再可靠。为探究这一点,研究使用了一个重症监护数据集,患者不仅被划分为开发集和测试集,还按时间分为“分布内”(较早时期)和“分布外”(较晚时期)两组。该框架构建了三种形式的不确定性集合:一种标准版本、一种为不同人口统计群体(此处为性别)量身定制的版本,以及一种显式针对随时间变化的数据进行调整的版本。三者都旨在达到相同的名义可靠性水平,但经调整和考虑群体差异的版本在医院环境发生漂移时更能保持性能。
当模型可以放弃时会发生什么
结果表明,允许模型在不确定的病例上弃权会显著提升其所保留预测的质量。在仍为80%患者提供答案的设置下,与强制模型对所有人都预测相比,这些“保留”病例中的错误率约下降了一半,无论是在原始时间段还是在随后发生的时间漂移下。基于一个保留校准组调优的单一置信阈值,在两个测试切分上都带来了较低的预期临床代价,且当数据分布变化时该代价仅适度上升。重要的是,模型仍然校准良好:当模型报告某病例具有某一脓毒症概率时,该数字与观测到的现实相吻合——这是临床医师信任其警报和弃权决策的关键。 
把公平性和可靠性放在视野内
因为临床工具必须适用于所有患者,作者还检查了不同人口子群的表现。通过为男性和女性患者构建独立的不确定性集合,系统使真实结果落在其预测集合内的频率更加均衡,将这一覆盖率上的性别差距缩小到约一个百分点。同时,一种通过重加权历史数据以模拟后来患者构成的版本在从早期队列到晚期队列的迁移中显示出可靠性下降最小。各方法中,不确定性集合保持紧凑——通常指向单一标签——因此临床医师不会被模糊输出压倒。较大的集合反而罕见,成为自然而然的信号,提示某些病例需要更仔细的人为关注。
这对现实世界分诊意味着什么
对非专业读者的结论是,作者并非仅仅追求更高的准确率;他们在设计一个本质上更为谨慎的 AI 助手。通过结合诚实的不确定性估计、明确的弃权规则以及对漏诊脓毒症高额惩罚的代价模型,该框架在自动处理的患者上减少了错误,同时在医院条件发生变化时仍将总体危害保持在低水平。这一方法还把公平性与监测纳入设计而非事后补救。在实践中,这种系统不会取代临床医师,而是作为以安全为重的筛选器——自信地处理明确的病例、将边界病例标记给人工复核,并提供透明的可调节点,医院可以据此调节以匹配自身的风险容忍度和资源限制。
引用: Kwon, H., Kim, DJ. Conformal selective prediction with cost aware deferral for safe clinical triage under distribution shift. Sci Rep 16, 10016 (2026). https://doi.org/10.1038/s41598-026-40637-w
关键词: 临床分诊, 脓毒症预测, 人工智能的不确定性, 选择性预测, 医疗安全