Clear Sky Science · zh
CardioEHR:来自中国中部的心血管患者纵向电子健康记录数据集
为何这份长期心脏数据重要
心脏病是全球首要的死亡原因,但医生和政策制定者常常缺乏有关患者多年间如何在卫生系统中流动的详尽真实世界信息。本研究介绍了 CardioEHR——一份来自中国中部数万名心血管患者的、经过严格匿名化处理的大型医院记录集合。数据覆盖 COVID-19 之前和之后的时期,为研究人员提供了罕见的视角,观察人们如何就医、疾病如何演变,以及政策和社会变化如何在日常医疗实践中产生连锁影响。

十年的真实医院生活
CardioEHR 汇集了武汉协和医院的两套大型电子健康记录。其一来自一个较旧的医院系统,记录跨度为 2010 年至 2020 年;另一套来自一个更注重研究的平台,覆盖 2011 年至 2024 年。总体上,该资源包含 7 万多名以心脏及相关慢性病为主的患者。对每位患者的数据包括年龄和性别等基本特征、入院与出院记录、诊断、实验室检查结果(包括 COVID-19 检测)以及居住地信息。由于记录横跨多年,研究者可以追踪患者随时间变化的就诊轨迹,而非仅看到孤立的住院事件。
这些患者是谁,以及他们如何在医疗体系中流动
作者们分析了患者在不同科室之间的流动情况,以及在旧系统与新系统之间这一流动如何发生变化。在早期队列中,大多数患者年龄在 50 至 70 岁之间,主要在心内科入出院,反映出稳定的老年严重心脏病患者群体。转入其他科室的情况较少,但提示存在合并多种慢性病的患者。后期队列的典型患者相对较年轻,入院途径涉及更多科室,且科室间的流动更为频繁。这一模式表明,新系统捕获了更广泛、更复杂的疾病组合,从而更完整地展现心血管问题与其他病症的交互。
地点与时间的作用
在医院外,团队将每位患者去标识化后的居住区域与《中国统计年鉴》的公共统计数据进行了关联,如当地收入、医院数量、床位数和医生数量。这使研究者能够研究社区财富与医养资源如何影响住院人群及复诊频次。作者还观察了就诊月度趋势和复诊间隔时间,发现这些慢性病患者存在规律性的随访模式,以及随年份变化的趋势,这些变化可能反映医疗改革、季节性影响或 COVID-19 大流行带来的中断与适应。
在保护隐私的同时保留有用细节
为使 CardioEHR 安全可共享,团队实施了严格的多步骤流程,去除直接识别信息并模糊敏感细节,同时不破坏医学叙事。姓名、身份证号、精确地址和电话号码均被删除,每位患者被分配了单向加密编码,以便在不同表之间关联其记录。实际日历日期被按每位患者独特的随机量平移,保留访问顺序与间隔但隐藏真实日期。诊断被映射为标准编码,罕见标签被合并,检验结果统一为通用单位并检查异常值。最终数据集被整理为五张清晰表格——患者详情、就诊记录、诊断、实验室检查和区域社会经济指标,针对两个人群队列分别提供,均在受控的数据使用协议下可获取。

该资源对未来健康的意义
简而言之,CardioEHR 是一部关于数万名心脏及相关疾病患者在十多年间与中国医疗体系互动的匿名化长期日记。由于它结合了临床细节、生活条件以及 COVID-19 前后这一独特时期的数据,它可以帮助科学家构建更好的预测工具、帮助政策制定者评估改革影响,并帮助医院了解医疗在哪些方面运行良好或存在不足。通过在隐私与细节之间的仔细平衡,该数据集为研究世界上人口最多国家之一的心血管健康与医疗服务提供了一个强有力的新窗口。
引用: Zha, L., Fu, C., Sha, X. et al. CardioEHR: A longitudinal electronic health record dataset of cardiovascular patients from central China. Sci Data 13, 451 (2026). https://doi.org/10.1038/s41597-026-06855-7
关键词: 心血管患者, 电子健康记录, 中国医院数据, 纵向健康数据集, COVID-19 医疗使用