Clear Sky Science · zh
通过从基因型预测心电图来推动基因发现与心血管风险评估
从基因读取心脏信息
大多数人在年轻时永远不会做心律检测,但几乎每个人的DNA现在都被存储在大型研究项目中。本研究提出了一个大胆的问题:我们是否可以利用这些遗传记录来预测一个人的心电图会是什么样子——并由此估算其未来的心脏疾病风险?如果可行,医生有朝一日可能只需一次血液或唾液样本,就能在症状出现多年前提醒人们注意心血管问题。

为何心电信号重要
心血管疾病是全球首要的死亡原因。一项简单、无痛的检测——心电图(ECG)——记录心脏的电活动,可揭示危险的心律问题或受损的心肌。ECG的许多微妙特征,例如波形的高度和宽度,部分由遗传决定。大型研究表明,40–70%的个体间ECG差异可追溯到遗传因素。不幸的是,在像英国生物库这样的巨大生物库中,只有大约十分之一的参与者同时具备DNA数据和ECG记录。这使得全面发现与心脏疾病相关的遗传因素或在大规模上利用ECG信息进行早期风险预测变得困难。
教神经网络“想象”心电图
研究人员开发了一个名为CapECG的深度学习模型,学习将个体的遗传变异转换为169项详细的ECG测量值。他们在超过37,000名具有欧洲血统且在英国生物库中同时拥有DNA和12导联ECG数据的人群上进行了训练。因为基因组包含数百万个相互关联的标记,他们首先将相近的变异分成倾向于共同遗传的区块,并使用称为LD-PCA的方法将每个区块压缩为少数关键成分。CapECG随后应用“注意力”机制来权衡哪些区块最重要,并采用胶囊式神经网络来捕捉遗传变化与ECG性状之间复杂的层次模式。
模型读取“遗传心迹”的效果如何
在7422人的内部测试集中,CapECG对102个明显具有遗传性的性状的平均相关系数约为0.62,与真实测量值相匹配。一些特征的预测效果尤其好,相关系数超过0.8。研究的一个重点是空间QRS-T角,这是一个衡量心脏电激活与复极在三维空间中排列方式的指标。该角度已与危险性心律紊乱和猝死相关。CapECG对该角度的预测相关约为0.65,统计检验显示预测值与观测值高度一致,特别是对那些遗传影响更强的性状。

发现隐藏的遗传线索并预测疾病
训练完成后,研究团队将CapECG应用于近39万名在英国生物库中有DNA但无ECG记录的参与者,实际上是仅凭基因“填补”了他们的ECG。随后,他们对这些预测的ECG性状进行了大规模的遗传关联研究。针对空间QRS-T角,他们发现了133个显著的遗传位点,其中包括33个与先前一项超过118,000人的大型研究重叠——这种重叠远多于仅使用规模较小的真实ECG数据所能发现的。对于QT间期(一项与危险性心律失常相关的关键指标)也出现了类似的提升。基因水平分析突出显示了数十个参与心脏电信号传导和节律控制的基因,并指出了若干此前未与心脏功能相关联的候选基因。
从预测的心电图到未来心脏风险
研究人员随后构建了另一个深度学习模型DeepCVD,使用169项由CapECG预测的ECG性状以及年龄和性别来估算个体患六种主要心血管疾病(包括高血压、心肌梗死和房颤)的风险。在数十万名有遗传信息的参与者上训练后,DeepCVD在独立留出测试组中达到约0.80的平均准确度(AUC)——明显优于仅依赖DNA和基本因素的标准多基因风险评分方法(约0.71)。一个配套模型DeepCVD-Age使用相同输入来预测某人可能被诊断出这些疾病的年龄;其预测与数据库中记录的实际年龄高度相关(约0.74),并且在非欧洲血统人群中也表现出合理的性能。
这对病人意味着什么
简而言之,这项工作表明,机器学习系统可以从联合的DNA和ECG数据中学到足够的信息,为从未做过该检测的人“想象”出一份ECG。这些想象出来的ECG性状不仅足以发现参与心律与结构的新基因,还能在预测谁将发展成心脏疾病以及大致何时发病方面优于广泛使用的遗传评分方法。尽管该方法仍需在独立人群中验证并进一步完善,但它指向了这样一个未来:一次简单的遗传检测可能在首个异常心电图出现在诊室屏幕之前很久,就为个人的终生心脏健康提供一扇窗口。
引用: Lin, S., Yang, Y. & Zhao, H. Empowering genetic discoveries and cardiovascular risk assessment by predicting electrocardiograms from genotype. npj Digit. Med. 9, 255 (2026). https://doi.org/10.1038/s41746-026-02438-3
关键词: 心血管风险预测, 心电图遗传学, 医学中的深度学习, 全基因组关联研究, 生物库数据