Clear Sky Science · zh
一个用于解决与住院病程相关的患者信息需求的数据集
这对患者和家属为何重要
当某人出院后,家属常常带着焦虑的问题上网求助:为什么要做这个检查?那些药物真的有必要吗?今天的住院记录往往包含这些问题的答案,但它们是为医生而写,而非为患者。本文介绍了 ArchEHR-QA —— 一个新数据集,旨在帮助研究人员构建和测试能够将冗长的住院记录转化为清晰、准确回答真实患者问题的人工智能(AI)工具。

从线上焦虑到住院记录
研究人员从一个简单的想法出发:使用人们在公共健康论坛上发布的真实问题,并将其与能够回答这些问题的真实住院记录配对。他们收集了一个流行医学讨论网站上的患者和照护者帖文,重点关注那些最近在重症监护病房(ICU)或急诊就诊的情形。这些时刻人们常常感到害怕和困惑,出院指导和在线搜索往往无法解决重要的疑虑。
构建真实的问答对
由于论坛上的提问者与医院数据库中的患者并非同一人,团队小心地将每个线上问题与一份已去标识的出院记录配对,该出院记录描述了非常相似的病情。临床医生随后将每个外行问题改写为简短、精确的版本,采用医生可能使用的表达,同时不改变患者实际想知道的内容。接着,他们逐句检查每份病历,标注哪些句子是必需的、哪些是有帮助的补充、哪些则与回答无关。最后,经执照的临床医生仅基于这些被标注的病历片段,撰写简短、通俗的答案。

新数据集包含的内容
完成的 ArchEHR-QA 集合包括 134 个病例:其中 104 个涉及 ICU 住院,30 个来自急诊就诊。每个病例都包含原始患者问题、临床医生改写的问题、经过精简的病历摘录、句子级的重要性标签,以及由临床医生撰写的约五句的答案。病例涵盖多个专科——如心脏疾病、肺部问题、感染和脑部疾病——并覆盖广泛的年龄和背景。所有材料以标准数字格式共享,便于其他研究人员使用。
用以检验现有 AI 模型
为展示 ArchEHR-QA 的用途,作者评估了若干可本地运行的现代大语言模型。他们要求每个模型使用病历摘录来回答问题,并指出支持其答案的确切句子。团队随后衡量两项指标:模型在病历中选择正确证据的能力(事实性),以及它们的答案与临床医生撰写答案的匹配程度(相关性)。研究尝试了不同的提示策略,包括让模型在一步中写出答案并选择证据,或先回答再补充证据。总体而言,最佳设置大约正确捕捉了半数最重要的句子,生成的答案在某种程度上与专家解释一致,但距离完美仍有差距。
这项工作如何减轻临床人员负担
研究还检查了模型出错的原因。有时模型引用了正确的病历句子却对其误解,或过度依赖患者问题的措辞而非病历本身。这些缺陷强调了在 AI 被用于为临床医生起草信息之前需要强有力的基准测试。ArchEHR-QA 已在一次国际研究挑战中被使用,数十个团队尝试了多步骤系统,先检索相关句子再生成答案。该数据集还可支持相关任务,例如在冗长病历中查找关键信息或总结患者问题。
这对未来护理意味着什么
简而言之,本文为构建可信赖的数字助手提供了基础,这些助手能用患者能理解的语言解释住院护理,并以病历中实际记载为依据。通过将真实世界的问题与真实的临床证据和专家答案相连接,ArchEHR-QA 使得衡量 AI 系统是否既准确又有用成为可能。如果此类系统持续改进,它们有朝一日或能为临床医生起草清晰、个性化的解释供审阅,从而减轻收件箱负担,同时为患者和家属更快、更可靠地解答在医院发生了什么以及接下来应做什么的问题。
引用: Soni, S., Demner-Fushman, D. A Dataset for Addressing Patient’s Information Needs related to Clinical Course of Hospitalization. Sci Data 13, 523 (2026). https://doi.org/10.1038/s41597-026-06639-z
关键词: 电子病历, 患者问题, 医疗人工智能, 临床病历, 问答