Clear Sky Science · zh

哈佛—埃默里心电图数据库

· 返回目录

为何需要一个巨大的心跳库

心脏的电信号通过一种称为心电图(ECG/心电)的简单检测被记录下来,是现代医学中最常见的测量之一。然而直至最近,研究人员几乎没有可以研究的规模巨大且组织良好的ECG合集。哈佛—埃默里心电图数据库(HEEDB)改变了这一状况:它汇集了来自日常医院护理的数百万份ECG记录,并附带有关患者身份和随访结果的信息。这个庞大的“心跳库”有望帮助科学家发现心脏问题的早期预警信号,并为医生构建更公平、更精确的计算工具。

Figure 1
Figure 1.

海量的心电信号集合

HEEDB 目前是开放获取的标准 12 导联心电图中规模最大的集合,这种类型的心电图在门诊和急诊室广泛使用。该数据库包含超过 1160 万份、每份 10 秒的记录,来自 1980 年至 2022 年期间在波士顿的麻省总医院和亚特兰大的埃默里大学医院就诊的超过 210 万名患者。数据库中的许多患者在数月或数年间接受了多次 ECG 检测,提供了心电模式随着年龄增长、疾病发生或康复过程如何变化的时间线。通过向合格研究人员开放这一资源,团队旨在支持对心律、其异常形式以及这些模式如何与心力衰竭、危险性心律失常和猝死等健康结局相关的群体规模研究。

患者构成与数据保护措施

数据库不仅存储波形,还为每位患者包含丰富的背景信息。对于大多数患者,研究人员可以看到年龄、性别和种族,而一家医院还提供了教育水平、语言和退伍军人身份等细节。诸如出生日期、ECG 记录日期、最近一次就诊日期和死亡日期等信息以经过谨慎变更的形式提供:每位患者的日期会被随机偏移最多一年,且所有超过 89 岁的人被归入同一年龄组。直接标识符已被移除,并为每个人分配了一个在相关项目中一致的新代码。这些措施遵循既有的隐私规范,并经伦理委员会批准,数据访问受使用协议控制,禁止任何“重新识别”个人身份的尝试。

每个心跳上的多层医学含义

HEEDB 中的每份 ECG 都关联有多层解读。首先,有广泛使用的商业心电分析软件自动生成的结论,标注节律类型和可能的问题,如既往心肌梗死或异常电传导模式。研究团队对所有记录使用该软件的最新版本重新生成了这些标签,以便研究人员能够在几十年间以一致的方式比较患者。其次,对于许多 ECG,数据库还包含医生在床旁审读心电迹象时所写的内容。由于这些书写以自由文本形式存在,团队使用自然语言处理方法将其转换为标准化的计算机编码。随后他们评估了自动化与人工解读的一致性,通常发现二者高度重合,但也揭示了计算机与医生存在分歧的情况。

将心电模式与诊断和病史连接起来

除了每条 ECG 可见的信息外,数据库还将每位患者与其电子病历中的诊断代码相连。这些代码来自长期使用的国际体系(ICD‑9 和 ICD‑10),概述了从高血压和糖尿病到心律失常和肺部疾病等各种状况,并附有诊断发生的日期。有些患者只有少量代码,而另一些患者则有数百条代码,反映出复杂的病史。两家医院中最常见的代码都与原发性高血压有关,这凸显了接受 ECG 检查的人群中心脏病高血压的普遍性。作者强调,基于 ECG 的标签与诊断代码反映的是医疗的不同方面,且可能对应不同的就诊时间,因此研究人员必须谨慎决定如何将它们组合使用。

Figure 2
Figure 2.

优势、局限以及研究者的使用方式

由于这些 ECG 是在常规临床护理中使用同一品牌设备收集的,数据具有一致性,但也包含真实世界的缺陷,如噪声和缺失导联。作者提供了基本的质量标记和技术说明,但有意将进一步的清洗和筛选工作留给终端用户,因为不同的研究目标可能需要不同的处理。他们还提醒说,所有记录均来自两家大型美国学术中心并使用同一厂商的系统,因此研究结果可能无法完全推广到其他地区或设备。即便如此,数据集的规模、患者的多样性以及自动化与医生解读的并存,使 HEEDB 成为测试新算法并研究不同人口群体间偏差的强大试验场。

这对未来心脏护理意味着什么

从本质上讲,哈佛—埃默里心电图数据库将数百万次常规心脏检测转变为共享的科学资源。对于非专业读者而言,其价值在于这些记录中可能隐藏的模式,能够在症状出现前很久识别出谁有严重心脏问题的风险,以及现有工具是否对不同年龄、性别和背景的人群同样有效。通过广泛提供经过仔细去标识的数据,该项目为更精确、以数据驱动的心脏病学以及既强大又公平的计算机辅助决策工具铺平了道路。

引用: Koscova, Z., Li, Q., Robichaux, C. et al. The Harvard-Emory ECG Database. Sci Data 13, 516 (2026). https://doi.org/10.1038/s41597-026-06861-9

关键词: 心电图, 心血管疾病, 医学数据集, 医学中的机器学习, 心律