Clear Sky Science · zh
用于心肺运动测试表现预测的多模态多实例学习
这对心脏衰弱患者为何重要
对于患有心力衰竭的人来说,最关心的问题之一是“我还有多少时间,医生还能为我做些什么?”目前回答这个问题的最好医学检测是耗费体力的跑步机或自行车检测,测量身体在剧烈运动时能利用的最大氧气量。但这种检测难以获得,许多医院无法开展。本研究展示了医疗人员如何改用常规的心脏超声检查和病历中已有的信息,结合现代人工智能来估算同样关键的数值,并标记可能需要挽救生命的高级治疗的患者。
及早发现危险的挑战
心力衰竭影响数百万美国人,常常夺去十多年寿命。在最严重的阶段,其生存率可比许多癌症更差,但只有少数患者能及时接受心脏移植或机械辅助泵等治疗。决定谁应被转诊接受这些治疗的关键工具是心肺运动测试,它测量“峰值VO₂”,即运动时身体能利用的最大氧气量。低峰值VO₂是一个强烈的危险信号,但该检测需要特殊设备、训练有素的人员和场地,因此许多中心——尤其是较小或偏远的医院——无法提供。相比之下,标准的心脏超声(经胸超声心动图,TTE)和电子健康记录(EHR)广泛可得,但单独使用时在预测谁风险最高方面效果并不理想。
教计算机跨检验读取信息
研究者构建了一个新的人工智能系统,从两类主要信息源学习:心脏的动态超声图像和来自EHR的详细数据,如年龄、体重、用药和常规心脏测量值。每次超声检查包含许多片段和专门视图,因此模型不是将每张图像单独处理,而是像临床医生那样一起审阅所有影像。它采用“多实例”策略:首先将每张图像或片段转换为紧凑表征,然后用注意力机制将它们组合起来,让模型专注于最具信息量的部分。与此同时,一个专门的神经网络针对表格型医疗数据将EHR信息转换为自身摘要。最后的融合步骤将超声和EHR的摘要混合为病人的整体画像,系统据此预测峰值VO₂以及患者是否低于关键的安全阈值。

系统的表现如何
团队在纽约–长老会(New York–Presbyterian)网络的四家大型医院的数据上训练和测试他们的方法,使用1000名患者进行开发,另外127名来自不同地点的患者用于外部验证。与先前更简单、较为独立地查看超声和EHR数据的AI模型相比,新框架明显更准确。在主测试组中,它解释了约60%的峰值VO₂变异,而之前约为53%;其典型误差减少了大约半个代谢当量(MET),这是临床上有意义的改进。在简单识别高风险患者(即运动能力特别低的患者)方面,系统在开发组达到0.85的曲线下面积(AUC),在外部医院为0.87,优于仅使用超声或仅使用EHR数据的所有模型。实际应用中,在一个固定且临床上合理的漏诊与误报权衡下,系统能更准确地标记出真正的高风险患者。
窥探“黑箱”内部
为了检查模型是否关注合理的特征,作者在超声图像上生成了可视化热图,显示哪些区域对预测影响最大。热图往往强调心腔、其运动和血流波形——心脏病学家已依赖的特征——这表明系统学到的是有意义的模式而非噪声。在EHR数据中,年龄、体重指数和左心室收缩功能等指标显得尤为重要,再一次符合临床预期。研究者还考察了模型在不同亚组中的表现。在预测精确峰值VO₂时,男性和女性以及白人和非白人的表现相似,但在老年人群体和跨种族的高风险分类上出现了一些差异,这强调了需要更多多样化数据和以公平为导向的改进。

从研究走向床边护理
由于该系统使用的是日常护理中已收集的信息——标准超声心动图和现有EHR数据——理论上它可以直接嵌入医院软件中。影像阅读后,AI可以静默估算峰值VO₂并标记预测运动能力危险性较低的患者,促使医生安排正式运动测试或将其转诊给高级心力衰竭专家。研究结果,包括在未参与训练的医院上表现良好,表明此类工具可能帮助发现更多可能被忽视的危险患者。尽管仍需前瞻性试验和更广泛的测试,但这项工作指向了一个未来:稀缺但强有力的检测能够被AI系统补充,从而更聪明地利用大多数医院已拥有的数据。
引用: Huang, Z., Pan, W., Alishetti, S. et al. Multimodal multi-instance learning for cardiopulmonary exercise testing performance prediction. npj Digit. Med. 9, 304 (2026). https://doi.org/10.1038/s41746-026-02493-w
关键词: 心力衰竭, 心肺运动测试, 超声心动图, 人工智能, 风险预测