Clear Sky Science · zh

教授多模态大型模型解读12导联心电图像

· 返回目录

为什么让计算机读懂心电图很重要

每天都有数百万人使用心电图(ECG)记录心脏活动。医生通常以打印或数字图表的形式查看这些记录,上面布满波形。在许多地方,尤其是资源有限的诊所,只有这些图像可用——没有原始的数字信号,也没有高级软件。本研究展示了一种新型人工智能(AI)如何直接“阅读”心电图图像,为全球临床人员提供更可靠的辅助。

Figure 1
Figure 1.

构建海量的心电图图片库

为了教会AI系统理解心电图图像,研究人员首先必须创建一个庞大且真实的训练库。大多数现有的心电图数据库存储的是原始电信号,而不是医生熟悉的纸张式图像。团队将这些信号转换为逼真的12导联心电图图片,包含网格线和标准布局。他们还加入了真实的瑕疵——褶皱、旋转、淡线、色差,甚至模拟的相机拍摄效果,以模仿在诊所打印、扫描或拍照时出现的情况。这些图像来自欧洲、北美和南美的多个大型患者群体,帮助系统学习跨不同人群和医院设置中出现的模式。

教AI理解它所看到的内容

仅仅向AI展示数百万张心电图图片还不够;它还必须学会如何对有意义的问题作出回答。团队创建了ECGInstruct,一个包含超过一百万图像与文本配对的数据集。每一对将心电图图像与一个任务关联:识别心跳的基本特征、辨别异常节律、识别疾病迹象,或撰写短的临床风格报告。为实现大规模,研究人员使用强大的语言模型帮助起草问题和答案,然后通过自动检查与专家审阅进行筛选和精炼。这样,AI不仅获得了原始图像,还获得了大量反映临床思维与表达方式的示例。

介绍PULSE,一款专门的心电图阅读模型

基于这套大而精心准备的数据集,团队训练了PULSE,一款能看图并生成文本解读的多模态AI模型。PULSE将图像处理模块与语言模块结合,能够将视觉模式与书面解释和决策连接起来。不同于以往局限于少数固定诊断或需要干净数值信号的系统,PULSE被设计成能处理多种类型的问题,从“这份心电图是正常还是异常?”到“描述节律和主要发现。”它还能就单张心电图进行多轮对话,模拟临床医生在复杂病例中推理的过程。

将系统付诸考验

为了评估PULSE的表现,研究人员构建了ECGBench,一个用于心电图图像理解的广泛测试套件。ECGBench包括标准诊断任务、报告生成、真实病例的选择题以及类似与专家对话的多轮问答环节。在熟悉的数据集和全新数据集上,PULSE在准确率上比通用AI模型(例如常用的商业系统)高出21–33个百分点。它也超过了早期依赖原始信号的心电图专用工具,尤其在需要开放式推理或仅从打印样式图像工作时表现更好。在并列示例中,PULSE通常生成与专家解释更为接近的报告,优于主流通用AI模型。

Figure 2
Figure 2.

这对日常医疗可能意味着什么

该研究表明,像PULSE这样经过精心训练的开源AI有望成为在使用心电图图像的环境中多用途的助手。由于它直接处理图片,它可以支持仅能获取扫描件或拍照打印件的诊所,并且能够超越简单的二元标签,提供更丰富的解释与多步推理。与此同时,作者强调该系统尚不能替代心脏病专家。它仍未达到专家水平,必须在真实医院环境中经过仔细测试,并关注安全性、偏差和适当监管。尽管如此,这项工作仍标志着向能够帮助临床人员更好理解揭示人类心脏健康的波形的AI工具迈出了重要一步。

引用: Liu, R., Bai, Y., Yue, X. et al. Teaching multimodal LLMs to comprehend 12-lead electrocardiographic images. npj Digit. Med. 9, 349 (2026). https://doi.org/10.1038/s41746-026-02551-3

关键词: 心电图, 医疗人工智能, 多模态模型, 心脏诊断, 临床决策支持