Clear Sky Science · zh

使用自我评估微调大型语言模型以生成准确出院小结

· 返回目录

医院文书工作为何至关重要

当患者离开医院时,他们的疾病故事并不会在出口处终结。其他门诊的医生、家庭医生以及患者本人都依赖一份名为出院小结的关键文件来了解住院期间发生的事情以及后续该如何处理。然而,撰写这些小结既缓慢又重复,繁忙的临床医生往往需要半小时甚至更长时间为每位患者完成。本研究探讨了现代人工智能语言工具如何在保持患者数据隐私并由医院控制的前提下,更快且更准确地起草出院小结。

把分散记录变成清晰的叙述

医院信息分散在多个电子系统中:检验结果在一张表格里,手术记录在另一处,护理观察又在第三处,诸如此类。每次住院会产生数千条短文本。研究团队首先构建了一条管道,将这些分散、混乱的信息转换为模型可理解的干净输入。通过合并和去重重叠记录、过滤姓名和身份证号等私人信息、修正拼写并标准化医学术语,他们为每次住院生成结构化输入。该流程应用于中国一家大型医院超过6000例甲状腺手术患者的数据,产生了真实出院小结与其对应原始数据的配对范例。

Figure 1
Figure 1.

微调AI以掌握医学表达

现成的大型语言模型是在互联网上和书籍等通用文本上训练的,因此它们常常难以应对专业的医学用语和本地化的文档风格。团队比较了几种“微调”已有模型的方法,使其更好地理解中文医疗记录。一种名为权重分解低秩自适应(weight-decomposed low-rank adaptation,简称DoRA)的新方法,比起早期的技术如LoRA和QLoRA,以更有针对性的方式调整模型内部权重。在包括Qwen2、Mistral和Llama 3等不同模型上,DoRA持续生成更流畅、语义更接近人工撰写且更少混淆的摘要(以标准指标困惑度衡量)。本质上,DoRA帮助AI学习医学措辞和术语,而无需在巨量硬件上进行全面重训。

教AI对自己的工作进行复核

即便是经过良好训练的模型,在一次性输出较长小结时也可能遗漏重要细节或引入小错误。受到心理学中快思维(System 1)与慢思维(System 2)启发,作者设计了自我评估循环。首先,模型从处理过的医院数据中写出初稿出院小结。然后将原始数据拆分为若干片段——例如病理发现、医嘱或化验单——并将每个片段与草稿逐一配对。模型被问及,实质上是“这个片段的内容是否都反映在小结里?”如果没有,它会修改文本以补充缺失或不一致的信息。该循环最多重复三次,或直到模型判断小结完整,从而生成更忠实于病历记录的精炼版本。

Figure 2
Figure 2.

AI相比人工表现如何?

为了评判质量,团队使用了自动评分和人工评审相结合的方法。医生和医学研究人员对小结在准确性、完整性、清晰度、一致性以及对后续护理的实用性等方面进行评分。表现最好的系统将DoRA微调与自我评估循环结合,在所有指标上最接近人工撰写的小结。它尤其提升了完整性,意味着漏诊、漏记治疗或关键化验值的情况更少。在一个详细示例中,AI最初忘记提及一处小的甲状腺癌和一款特定的激素药;经过两轮自我评估后,这两项细节均被正确补入。平均而言,该系统在医院服务器上生成一份出院小结约需80秒,而临床医生从头起草通常需30–50分钟,尽管在文本进入正式病历前仍需人工复核。

这对患者与临床人员意味着什么

研究表明,通过谨慎的训练和内建的自检机制,AI系统能生成经快速人工复核后可被认为临床可接受的出院小结。这并不取代医生,但可以将他们的时间从机械式的输入转向更高层次的审阅和决策。通过将所有计算保留在医院网络内部并删除识别性细节,该方法也尊重患者隐私。尽管目前的结果来自单一医院的一个科室,该框架指向了一个前景:AI可在多个专科中帮助把复杂的医疗数据转化为清晰、可靠的叙述,支持更安全的交接护理并提升患者与家属的理解。

引用: Li, W., Feng, H., Hu, C. et al. Accurate discharge summary generation using fine tuned large language models with self evaluation. Sci Rep 16, 5607 (2026). https://doi.org/10.1038/s41598-026-35552-z

关键词: 出院小结, 医疗人工智能, 大型语言模型, 临床文档, 自我评估