Clear Sky Science · zh

机器学习预测的儿科肿瘤染色质组织格局

· 返回目录

基因组折叠为何对病童至关重要

儿科脑肿瘤是儿童期致死率最高的癌症之一,但对许多年轻患者而言,医生仍然无法确切知道DNA中发生了什么问题。本研究探索了一个新视角:不仅关注哪些基因发生突变,还关注大型DNA重排如何改变基因组在细胞内的折叠方式。通过将大规模癌症数据与强大的机器学习模型相结合,作者表明,这种三维折叠模式中隐匿的破坏可能促进儿童肿瘤的发生——并且计算机现在可以标记出最危险的改变以供进一步研究。

Figure 1
Figure 1.

儿童肿瘤中的大规模DNA重排

研究者并非只关注遗传密码中的小“错字”,而是研究结构变异——对长片段DNA的大范围剪切、复制、翻转和粘贴。这些大尺度改变可能使基因融合、删除保护性区域,或将强大的调控开关(增强子)放置到错误的基因旁边。利用来自儿童脑肿瘤网络近1,900名儿童、涵盖61种肿瘤类型的数据,团队编目了近30万例此类变异。他们发现某些肿瘤组,如淋巴瘤和肉瘤,携带的此类改变明显更多;而复发或在初次治疗后进展的肿瘤,通常比原发肿瘤拥有更多结构变异。

用人工智能观察三维基因组

要直接测量每个结构变异如何改变细胞内DNA的折叠,需要对数十万处位点进行繁琐的实验——在这种规模上几乎不可能。于是,作者使用了一个名为Akita的卷积神经网络,通过他们的SuPreMo-Akita管道预测一百万碱基对范围内的DNA如何在三维中折叠。对于每个结构变异,他们模拟有变异和无变异的局部DNA序列,让模型预测接触图——展示基因组哪些部分相互接触的模式——然后比较这些图谱。差异越大,该变异被预测扰乱基因组组织的程度越高。这样,他们便能在所有肿瘤中对变异按对正常折叠模式造成的弯曲或破坏程度进行排序。

折叠出错的热点区域

当团队扫描基因组以寻找反复受到高度破坏性变异攻击的位点时,发现了五个反复破坏的区域——这些DNA片段中,来自多种肿瘤类型的许多儿童肿瘤显示出局部折叠的强烈预测性损伤。在这些区域中的若干处,模型显示关键结构特征如域边界和环状结构的丧失,这些特征通常将基因与其调控开关隔离开来。值得注意的是,这些热点并非总体突变率特别高;它们的区别在于一旦发生变异,折叠被破坏的严重程度。这些区域包含与脑发育和已知癌症相关功能相关的基因,表明微妙的三维接线错误,而非单纯的突变数量,可能更为关键。

Figure 2
Figure 2.

将折叠破坏与基因调控开关联系起来

由于并非所有DNA形态的改变都会影响细胞行为,研究人员接着专门考察了调控元件——在肿瘤样细胞系中由特征性化学标记和开放染色质标记的增强子。他们发现,若干儿科肿瘤类型中高度破坏性的变异更可能位于这些活跃增强子区域的内部或附近。在已有的Activity-by-Contact模型基础上,他们创建了一个“ABC破坏评分”,对那些预测会在这些增强子所在位置扰乱基因组折叠的变异给予更高权重。该精细化评分凸显出会强烈改变增强子与附近参与细胞生长、生存和脑功能基因接触的结构变异,其中包括PDGFRA、ID2、MYCN等知名癌基因。

指向新癌症驱动因素与未来临床应用的线索

聚焦于一种特别侵袭性的肿瘤类型——非典型畸胎样/横纹肌样瘤,该方法突出显示了发生在与染色质重塑、DNA修复和神经发育相关基因附近的重排。在若干病例中,携带这些变异的肿瘤也显示出邻近基因异常升高或降低的表达,与通过改变三维接触实现的增强子“劫持”一致。尽管这些发现仍需实验证实,但它们指出了一种强有力的新途径,用以在海量结构变异中筛选并优先考虑最有可能影响肿瘤行为的那些。从长远看,如此由机器学习引导的基因组折叠地图,可能有助于医生解读儿童癌症患者的测序结果、发现被掩盖的疾病驱动因子,并最终指导更精确、毒性更低的治疗探索。

引用: Gjoni, K., Zhang, S., Yan, R.E. et al. Machine learning-predicted chromatin organization landscape across pediatric tumors. Sci Rep 16, 10790 (2026). https://doi.org/10.1038/s41598-026-44925-3

关键词: 儿科脑肿瘤, 结构变异, 3D基因组组织, 机器学习基因组学, 增强子劫持