Clear Sky Science · zh

一种卷积注意力模型可从全外显子测序中分类拷贝数变异

· 返回目录

在我们DNA中寻找隐藏线索

医生越来越多地使用DNA测序来寻找能解释疾病的遗传改变,但一些最重要的线索并不是单个“拼写错误”式的突变——它们是缺失或重复的DNA片段。这些称为拷贝数变异的改变,在大多数医院已经生成的数据中往往难以发现。这项研究提出了一种新的计算模型,它能够解读嘈杂的测序覆盖模式,更准确且在不同测序平台之间更一致地识别这些缺失或多余片段,可能提升已经在医学遗传学中常用的检测工具的性能。

多余或缺失的DNA为何重要

拷贝数变异指的是某段DNA的拷贝数比通常情况少或多。某一片段可能完全被缺失或被复制多次。这类改变可以影响日常性状,影响诸如癌症或神经发育障碍等疾病的风险,并作用于人群的演化过程。在临床上,发现这些变异对于罕见病诊断和肿瘤分析都至关重要。许多患者已经接受了全外显子测序,该方法关注编码蛋白的基因区段。利用现有的外显子检测同时去检测拷贝数变异,可以在不需要额外昂贵检测的情况下,使遗传学检测更具信息量。

当前工具为何困难重重

从外显子数据中检测拷贝数变异在技术上很困难。外显子捕获过程对基因组的取样不均匀,导致读取深度高度参差不齐——即每个区域被测序读取覆盖的数量不稳定。传统软件通过统计方法和平滑规则来减小噪声,然后应用阈值判断某一区域是正常、缺失还是重复。尽管有用,这些方法在覆盖率低、使用不同测序仪器或化学试剂时,或者当邻近区域和染色体之间的细微模式很重要时,往往会表现不佳。因此,灵敏度可能下降,尤其是对较小或更嘈杂的事件,而且性能可能难以在不同实验室或平台之间迁移。

Figure 1
Figure 1.

读取嘈杂信号的新方法

作者设计了一个深度学习模型,称为CNN‑Att,它直接从原始覆盖模式中学习,而不是主要依赖固定规则。对于每个编码蛋白的片段(外显子),模型接收外显子及其周边区域的标准化读取深度快照,以及其基因组起止位置。模型还接收一个编码标签,指示该外显子来自哪个染色体。卷积层——最初在图像分析中流行——沿着这条一维信号扫描,以捕捉覆盖模式中的局部形状,例如可能表示缺失的凹陷或暗示重复的轻微隆起。随后,注意力机制突出最具信息量的特征,尤其是那些可能对应小型或嘈杂事件的微弱信号,然后模型做出三分类决定:正常、缺失或重复。

模型的性能如何

为评估CNN‑Att,研究人员使用来自1000基因组计划的大型基准数据对其进行训练,这些外显子数据配有由更全面的全基因组测序推断得出的标签。在一组单独保留用于测试的50个外显子样本上,模型总体上正确分类了约83%的外显子窗口,并且在区分三类方面表现出很强的能力,在接收器工作特性曲线和精确率—召回率曲线上均得分较高。删除事件比重复事件稍易检测,这反映了删除通常在覆盖度上留下更明显的痕迹。该模型优于仅知道基因组坐标的简单基线,表明它确实是从深度模式中学习,而不是记住变异常见的“热点”位置。

Figure 2
Figure 2.

在不同测序仪上也可靠

由于临床和研究中心使用多种测序仪,实用工具必须在不同平台上表现良好。因此,作者在相同参考DNA样本上使用四种主要技术测试了CNN‑Att:HiSeq 4000、NovaSeq 6000、MGISEQ 2000和BGISEQ 500。在这些不同仪器上,模型的整体F1分数——精确率与召回率的平衡——在0.89到0.96之间,持续优于若干广泛使用的传统工具。在进一步实验中,团队仅使用由专家精心标注的七个样本,对模型的最终决策层进行了微调。即使仅有这些有限的人工标注数据,微调也明显提高了对真实删除和重复事件的召回率,但代价是出现一些额外的误报;当可对可疑调用进行后续验证时,这种权衡通常是可以接受的。

这对患者和研究意味着什么

这项工作表明,针对性的深度学习方法可以将常规外显子测序中嘈杂、不均匀的覆盖信息转化为对缺失和多余DNA片段的更可靠检测。CNN‑Att在保持错误率可控的同时实现了较高的敏感性,并且在不同测序仪之间保持鲁棒性,使其适用于多中心研究和大型人群项目。尽管它仍需在更大规模的专家注释队列上验证,并且目前依赖于特定的参考基因组,这一框架指向了能遗漏更少重要变异的外显子检测实践。实际上,这可能意味着更多患者能通过已进行的测序获得及时且可采取行动的遗传学结论。

引用: Ouhmouk, M., Abik, M. A convolutional attention model classifies copy number variants from whole exome sequencing. Sci Rep 16, 14310 (2026). https://doi.org/10.1038/s41598-026-44691-2

关键词: 拷贝数变异, 全外显子测序, 深度学习基因组学, 卷积神经网络, 临床遗传学