Clear Sky Science · zh
使用 Hi-C 接触矩阵和神经网络进行结构变异检测的方法
为何 DNA 的三维弯折很重要
我们的 DNA 常被画成一串简单的字母,但在每个细胞内它折叠成复杂的三维结构。当这条序列的大块被删除、翻转或移动——称为结构变异——时,会扰乱基因功能并推动癌症发生。本研究提出了 VarHiCNet,一种新的人工智能系统,能够读取三维 DNA 折叠图谱并比现有工具更准确地识别这些危险的大尺度改变,为研究癌症基因组及其他疾病提供了一条新思路。
通过三维接触图看基因组改变
传统的基因组检测把 DNA 视为直线序列,这使得识别复杂重排变得困难,尤其在重复区域或拷贝数不变但位置改变时。Hi-C 技术以不同方式处理这一问题:它测量在细胞核内远端 DNA 片段实际接触的频率,然后将这些接触记录为一个网格或接触矩阵,矩阵中亮点表示交互更强。结构变异会在这些矩阵中留下独特指纹——比如区域被删除时出现的缺失条带、片段翻转时的镜像模式,或两条染色体融合时的非对角热点。VarHiCNet 的设计目标就是自动识别这些视觉模式。

把基因组图谱变成 AI 可读的图像
作者将原始 Hi-C 接触数据转换为计算机视觉系统易于处理的图像。首先,他们对矩阵进行了仔细归一化,以校正随着距离增加接触频率自然下降的效应,同时保留近距离和远程相互作用的信号。然后对每条染色体进行重叠的方形窗口扫描,切出许多较小的子矩阵。每个子矩阵被调整为标准化的 800×800 像素彩色图像,不同的接触强度映射为三色通道中的红色调强度。这种类似图像的表示使模型能够重用最初为识别照片中物体而开发的强大技术。
借用目标检测的技巧
VarHiCNet 将每个潜在的结构变异视为图像中的“物体”。它基于一种现代目标检测框架 RT-DETR,结合卷积神经网络和 Transformer 来突出重要区域。ResNet 主干网络首先提取多尺度特征:浅层保留定位精确断点所需的细节,而深层捕捉提示大事件的更广泛模式。随后一个特征融合模块将来自多个层的信息混合,以保留局部与全局线索。另一个受空间金字塔池化启发的自定义模块调整模型一次“看到”的周围区域大小,使其对跨度从相对较小到非常大的变异都具备敏感性。

从候选区域到精确的变异类型
在 VarHiCNet 提出 Hi-C 图像中的候选区域后,它还需将这些区域精细化为确切断点和具体变异类型,如缺失、倒位、重复或易位。为此,系统放大每个预测断点周围的邻域,并使用主成分分析(PCA)等数学手段降低复杂性,突出接触模式发生剧变的地方。这些紧凑的表示随后输入基于 Transformer 的分类器,学习各变异类别在局部模式上的微妙差异。最终输出为每个事件的详细判定:它在基因组中的位置以及所代表的结构改变类型。
在多种癌症细胞系上的表现
研究人员在来自六种不同人类癌症细胞系的 Hi-C 数据上测试了 VarHiCNet,涵盖血液、乳腺、脑、肾、肺和前列腺肿瘤。以一份高置信度的已知结构变异目录作为金标准,他们将该方法与若干也分析 Hi-C 数据的领先工具进行了比较。在染色体内和染色体间事件上,VarHiCNet 通常获得更高或相当的 F1 分数,说明其在敏感性和准确性之间取得了更好的平衡。它在检测平衡易位和倒位方面尤为强劲——这些重排在标准测序中常常痕迹很少,但在三维折叠图中留下明确信号。作者还展示了其设计选择(如图像分辨率和特征融合模块)在受控测试中持续改进了性能。
对理解疾病的意义
通俗地说,VarHiCNet 为科学家提供了一种更智能的方法来“观察”基因组如何在三维中折叠,并发现许多传统测序可能漏检的与疾病相关的大规模重排。通过将复杂的接触图转换为图像并应用现代视觉类神经网络,该方法能够在不同癌症类型间高可靠地检测并分类多种结构变异。尽管它在处理一些非常小或高度纠缠的改变时仍有困难,并且依赖丰富的训练数据,但 VarHiCNet 展示了一个前景:将三维基因组结构作为常规工具来解读、解释并最终针对驱动癌症和其他疾病的遗传改变。
引用: Shen, J., Wang, H., Zhai, H. et al. A method for structural variant detection using Hi-C contact matrix and neural networks. Sci Rep 16, 7324 (2026). https://doi.org/10.1038/s41598-026-37678-6
关键词: 结构变异, Hi-C, 深度学习, 癌症基因组学, 3D 基因组