Clear Sky Science · zh

ClinicRealm：用传统机器学习重新评估大型语言模型在非生成性临床预测任务中的表现

2026-04-08 · 返回目录

为何更聪明的医院预测很重要

医院每天都会收集大量关于患者的数字化信息，从简短的医师笔记到冗长的化验结果和生命体征清单。隐藏在这些数据中的是关于谁会好转、谁可能很快再次入院以及谁处于严重风险的线索。选择哪种人工智能（AI）来读取这些线索不再是纯粹的技术问题——它会影响患者获得帮助的速度与公平性。本研究提出了一个及时的问题：现今那些以聊天为主的强大 AI 系统（即大型语言模型）是否真的能与长期以来用于医学预测的精心设计算法相抗衡或超越它们？

为新型医疗 AI 设计的新测试

研究人员构建了一个名为 ClinicRealm 的广泛基准，将三类模型并列比较：传统的机器学习与深度学习系统、早期面向文本的模型，以及现代大型语言模型。他们在两类主要的医院数据上评估这些工具。一类是非结构化文本，例如用日常临床语言撰写的入院与出院记录；另一类是结构化的电子病历表格，由化验数值和带时间戳的生命体征等数字组成。团队关注对医院实际重要的问题，包括患者在住院期间是否会死亡、是否会在 30 天内再入院，以及可能在医院停留多久等。

在预测中，文字有时胜过数字

在基于医生和护士笔记的任务中出现了一个显著模式。多年来，人们普遍认为那些在病历上微调的专门文本模型是从此类笔记中预测结果的最佳选择。然而 ClinicRealm 表明，最新的大型语言模型在“零样本”模式下（未在医院数据上进行额外训练）现在大幅超越了这些专门系统。在事前的风险预测和事后的文档分类任务中，像 GPT-5 和 DeepSeek 等先进模型都取得了非常高的准确率。这意味着仅将原始临床文本输入并请求预测，有时比对旧方法进行数月的细致微调更有效。值得注意的是，若干开源模型的表现与专有模型相当甚至更好，使得对必须在院内保留数据的医院而言，获得强大工具的门槛更低。

数字仍然偏向经典工具——但并非总是如此

对于结构化电子病历，情况更为复杂。在这里，当能从大量数据中学习时，经过精心训练的传统模型和专门的深度学习系统仍然占优势。它们在识别随时间变化的化验值和生命体征流中的模式方面特别擅长。然而，当可用的患者样本很少——例如罕见病或新爆发时常见的情况——现代语言模型表现出令人惊讶的优势。在某些测试中，通过巧妙设计的提示并配以少量示例的大型语言模型，能够匹配或超越在相同有限数据上训练的传统模型。简单地将表格数据和文本同时“倒入”语言模型并不会自动改善性能，这表明多数据源的结合仍是一个精细的设计问题，而非任意组合就能带来的提升。

窥探 AI 的医学推理

由于对风险评分的盲目信任并不安全，团队还请了五名临床医生对语言模型在预测时同时给出的解释进行评分。总体上，专家们认为这些叙述在准确性、完整性和临床可用性方面表现合理，尤其是在模型基于丰富叙事性笔记工作的情况下。不过也暴露出重要弱点。在一些误报中，模型通过杜撰或误读病历细节来为高风险作出合理化。在漏判风险的案例中，它们经常能识别到相关发现但未能正确权衡其重要性，反映出浅层判断而非单纯的数据提取错误。即使在预测正确时，也可能残留有缺陷推理的痕迹，这凸显出仅有准确率并不能保证可靠的临床支持。

公平性、局限与下一步

研究人员还考察了按年龄、性别和种族划分的公平性。令人鼓舞的是，在零样本模式下经过谨慎提示的最先进语言模型，往往在不同群体间表现得更为平衡，优于某些经过大量训练的传统系统（这些系统可能会放大现有的数据偏差）。然而，为特定任务微调模型有时会重新引入差异，没有任何方法能实现完全公平。作者强调，任何部署都应包括常规的偏差检查、稳健的提示设计以及可靠性保障，而不仅仅是单一测试集上的高准确率。

这对未来医院护理意味着什么

ClinicRealm 的结论是，现代大型语言模型不再只是善于闲聊的助手；它们已成熟为预测患者结局的有力竞争者，尤其擅长从书面笔记中预测并适用于数据稀缺的场景。经典的机器学习系统在有充足结构化信息并且有时间训练时仍然表现出色，但差距在缩小。对医院和医疗技术人员而言，这意味着应从一刀切的选择转向更细致的工具箱策略：在传统模型仍占优的场景继续使用它们，在处理自由文本与快速启动时依赖大型语言模型，并将两者结合，同时仔细关注推理质量与公平性。若能谨慎实施，这种平衡策略有望让预测分析更强大、更广泛可用，并最终更有助于提供更安全、更个性化的护理。

引用: Zhu, Y., Gao, J., Wang, Z. et al. ClinicRealm: Re-evaluating large language models with conventional machine learning for non-generative clinical prediction tasks. npj Digit. Med. 9, 319 (2026). https://doi.org/10.1038/s41746-026-02539-z

关键词: 临床预测, 电子病历, 大型语言模型, 医疗 AI 基准测试, 医疗公平性