Clear Sky Science · zh

通过共识峰定义的用于单细胞 ATAC-seq 数据分析的通用参考

· 返回目录

为何绘制 DNA 的“开放之门”很重要

你体内的每个细胞基本上携带相同的 DNA,但脑细胞、血细胞和肿瘤细胞的行为却截然不同。其中一个关键原因是,只有某些 DNA 片段在任意时刻是暴露并“开放”的。新的单细胞技术现在可以在全基因组范围内测量这种开放性,但此前缺少一个通用的参考地图——类似于标准地图集,用以在不同实验和实验室之间比较结果。本研究构建了这样一张地图,称为 cPeaks,并展示了它如何提高我们对细胞类型、发育和癌症的解析能力。

将许多实验整合为一张共享地图

作者首先收集了 624 个高质量实验,这些实验在 40 多个人体器官中测量了开放染色质——DNA 的可及部分。在每个实验中,计算程序已经标记了 DNA 特别暴露的“峰”。研究团队没有将每个数据集单独处理,而是将所有这些峰列表沿基因组仔细叠加并合并重叠区域。随后他们检查在这些合并区域内每个微小位置在多少实验中被标记为开放,从而将每个区域转化为反映其出现一致性的特征形状。当一个合并区域实际上包含多个紧密分布的开放位点时,他们将其拆分为多个更简单的单元。这些单元总数约为 140 万,成为观测到的共识峰(cPeaks),即人类染色质可及性的候选参考目录。

Figure 1
Figure 1.

在组织与技术之间保持稳定的指纹

要成为有用的参考,这些 cPeaks 必须代表基因组中真实且可重复的特征,而非某些样本或软件的特异性偏差。作者通过仅使用血液样本、仅使用实体组织、不同公共数据库,甚至不同实验室用于探测开放 DNA 的方法,重新构建他们的合并区域来验证这一点。在每种情况下,相同的基因组位置都产生了高度相似的峰形,并且他们检查的大多数单细胞数据集中,自身峰与 cPeak 目录的重叠度超过 90%。来自许多器官的测序读数精确集中在 cPeak 中心附近,表明这些区域可靠地捕捉到了染色质开放的位置。与基于相关技术的先前参考集相比,cPeaks 覆盖了更多由 ATAC-seq 实验检测到的可及 DNA,并且尽管 cPeaks 是固定且可重复使用的,它们捕获的信号量几乎可以与在每个数据集中重新定义的峰相媲美。

教神经网络寻找缺失区域

即使有数百个现有样本,也无法覆盖每一种可能的细胞类型。为将地图扩展到尚未观测到的区域,团队转向深度学习。他们用 DNA 序列训练了一维卷积神经网络:位于观测到的 cPeaks 内的实例作为正例,随机选择的背景区域作为负例。模型以高精度学会区分两者,这表明 cPeaks 含有可识别的序列模式。当研究者有意对某一组织特异性的峰进行隐藏时,网络仍能仅凭序列将其恢复出来,包括罕见的组织特异性位点。随后他们在基因组其余部分滑动一个小窗口,对每个片段打分,并将约 28 万个高分新区域添加为预测的 cPeaks,显著提升了在原始数据中代表性不足组织的覆盖度。

将开放区域与基因、细胞类型和罕见细胞连接起来

有了更丰富的参考,作者探讨了这些区域的功能。许多 cPeaks 位于基因起始或终止位点附近,或与已知的调控元件重叠,如启动子、增强子以及结构蛋白(如 CTCF)的结合位点。一小部分在几乎所有数据集中都是可及的;这些较长的“管家” cPeaks 往往位于维持基本细胞功能所需基因的核心启动子区域。研究团队还根据 cPeaks 在样本间边界的锋利度和一致性对其进行分类,这反映了邻近 DNA 如何被精确地包装成核小体。边界清晰的区域富集特定家族的转录因子,这些因子已知会重塑染色质并驱动发育。在将 cPeaks 作为特征集合用于分析多个单细胞数据集时,它们提高了细胞类型标注的准确性,尤其有助于识别罕见细胞类型和以往峰集或简单基因组网格常常模糊的细微亚型。

用共同语言追踪发育与癌症

当比较非常不同的生物学情境时,标准参考的优势变得清晰。利用 cPeaks,作者重新分析了人类发育期视网膜的单细胞数据、大型胎儿与成人组织图谱以及若干癌症样本。他们能够重构发育轨迹,并观察到在过渡阶段,边界清晰的“位置良好” cPeaks 的比例往往上升,然后在细胞稳定分化后下降。肿瘤分期中出现了类似的模式:处于中间阶段的癌症显示出这类结构化区域的比例更高,暗示存在剧烈的调控重塑。在一例卵巢肿瘤中,cPeaks 帮助揭示了两个具有不同 DNA 拷贝数改变的独特癌细胞亚克隆,展示了该参考如何揭露疾病中的隐含复杂性。

这对未来基因组研究意味着什么

对于非专业读者而言,cPeaks 可被视为一组标准化坐标,标记了在多种人体细胞类型中基因组最有可能物理开放和活跃的位置。通过将新的单细胞染色质实验与这张共享地图对齐,研究者可以跨研究比较结果、更容易识别罕见或处于转型状态的细胞,并开始构建大规模的基因调控模型——正如标准化基因目录推动了单细胞 RNA 图谱的兴起。目前的 cPeak 目录是第一稿,随着新数据的到来会不断扩展,但它已经为描述染色质可及性提供了共同语言,使我们更接近于统一理解 DNA 包装如何指导发育、健康与疾病。

Figure 2
Figure 2.

引用: Meng, Q., Wu, X., Chen, W. et al. A generic reference defined by consensus peaks for single-cell ATAC-seq data analysis. Nat Commun 17, 2522 (2026). https://doi.org/10.1038/s41467-026-69461-6

关键词: 染色质可及性, 单细胞 ATAC-seq, 共识峰, 基因调控, 深度学习基因组学