Clear Sky Science · zh

通过染色质相互作用数据的归一化方法提升增强子-启动子环的检测

· 返回目录

在我们的 DNA 中看见隐秘的环路

在每个细胞内部,长长的 DNA 链以三维方式折叠并形成环,使基因组中相距很远的片段得以紧密接触。其中一些环把称为增强子的开关与它们控制的基因物理性地连接起来,塑造了细胞如何发育以及像癌症这样的疾病如何发生。本文介绍了一种新的计算方法 Raichu,它能让这些微弱的调控环在全基因组实验中更容易被检测到,为理解 DNA 折叠与基因活性之间的联系打开了更清晰的窗口。

Figure 1
Figure 1.

微小的 DNA 环为何重要

我们的基因组并非像一条笔直的字母串那样排列。相反,它在细胞核内揉成复杂的三维结构。在这种折叠状态下,相距遥远的 DNA 区域可以相互接触,形成染色质环。有些环作为支架,帮助组织整个基因组区域;另一些则是调控性环,将基因启动子与能够增强其活性的远端增强子连接起来。这些调控环的破坏已被关联到发育性疾病和癌症,因此科学家们渴望对它们进行详尽绘制。

阅读三维基因组地图的挑战

像 Hi-C 及相关方法可以捕获数百万到数十亿的 DNA–DNA 接触,并将其汇总为热图,每个像素反映两段基因组区域相遇的频率。然而,这些地图充斥着技术性偏差:有些区域比其他区域更容易被读取,这与序列组成、比对难度或实验中被切割的方式有关。为清理这些偏差,研究者使用诸如 ICE 和 KR 的归一化方法来平衡热图,使每个区域看起来具有相同的可见性。尽管这些工具可以锐化大尺度特征,比如广域域和强结构环,但作者指出它们会无意中抹去那些更弱但在生物学上至关重要的增强子–启动子环。

清理信号的新方法

Raichu 对清理染色质接触数据采取了不同的方法。它不强制基因组的每个区域看起来具有相同的可见性,而是将每个相互作用建模为三部分之和:随着染色体上距离增加而普遍下降的接触频率、每个位置特有的偏倚,以及该特定接触的剩余信号。通过优化算法,Raichu 估计出最能解释观测数据的偏倚模式,同时保持总体的距离依赖趋势不变。然后通过除以这些偏倚值来调整接触频率。这种做法保留了交互的自然全局衰减,同时有选择性地校正技术性失真,留下更清晰的真实特异性 DNA 接触信号。

揭示成千上万被遗漏的调控环

当作者将 Raichu 应用于深度测序的人类和小鼠数据集时,它比标准方法显示了近两倍的染色质环,同时仍几乎恢复了之前已知的所有环。Raichu 检测到的额外环在生化标记上强烈富集,表明这些区域是活跃的增强子和启动子,并富集结合控制基因活性的转录因子。许多这些环得到其他三维基因组技术乃至高分辨率成像的独立支持,确认它们确实反映了细胞核中的真实物理近邻。值得注意的是,即使在模拟较低测序深度的数据、研究像 Micro-C 和区域捕获 Micro-C 这样的特化测绘方法,或甚至在合并少量单细胞数据时,Raichu 仍保持了这种优势。

Figure 2
Figure 2.

揭示细微变化与进化模式

由于 Raichu 对调控环尤为敏感,它更擅长发现可能在其他方法下看似相似的条件之间的有意义差异。在携带白血病风险变体的人类工程细胞模型中,Raichu 揭示了仅在风险状态下出现的新环,这些环将关键基因与其增强子连接起来,并与基因活性的变化相一致。在小鼠与人神经祖细胞中,Raichu 发现了数千个在物种间保守的增强子–启动子环,并且这些环常将远端增强子连接到参与大脑发育的基因。这些发现表明,许多重要的调控接触一直就隐藏在明处,被早期的归一化方法所掩盖。

这对未来基因组研究意味着什么

对普通读者而言,关键信息是我们如何处理大型基因组数据集可以极大地影响我们所见的生物学。通过重新思考三维基因组图谱的清理步骤,Raichu 恢复了那些微弱但重要的信号,将基因开关与其靶标联系起来。这使得追踪 DNA 折叠如何在健康和疾病中控制基因活性变得更容易,研究尺度可以从单个细胞到整个组织并横跨物种。随着越来越多的研究采用 Raichu,研究者可以期待得到更丰富的增强子–启动子通信地图,并更清晰地理解基因组结构变化如何促进发育、癌症及其他复杂疾病的发展。

引用: Wang, X., Shi, D., Xue, F. et al. Boosting the detection of enhancer-promoter loops via normalization methods for chromatin interaction data. Nat Commun 17, 2299 (2026). https://doi.org/10.1038/s41467-026-69082-z

关键词: 3D 基因组组织, 增强子 启动子 环, Hi-C 数据分析, 染色质 归一化, 基因调控