Clear Sky Science · zh

使用序列到功能建模评估单细胞 ATAC-seq 制图技术

· 返回目录

阅读细胞的说明书

你体内的每个细胞都读取相同的 DNA,但脑细胞、肌肉细胞和免疫细胞的行为却截然不同。本文着力解决这一多样性背后的核心难题:被称为增强子的短 DNA 片段如何像开关一样在特定细胞类型中打开或关闭基因。作者展示了新型、成本更低的实验技术能够生成用于训练现代深度学习模型的大规模数据集,这些模型可读取 DNA 序列并预测哪些增强子在哪些细胞中活跃,从而把我们更接近真正解读基因组的调控“语法”。

Figure 1
Figure 1.

绘制单细胞中开放 DNA 的地图

增强子通常位于更开放、更易被调控蛋白结合的 DNA 区域。一种称为单细胞 ATAC-seq 的技术能一次测量成千上万单个细胞中基因组哪些部位是开放的,从而在多种细胞类型之间创建可及 DNA 的“图谱”。这些图谱是以原始 DNA 序列为输入并学习预测每个小区域在每种细胞类型中作为增强子活性强度的深度学习模型的理想训练素材。然而迄今为止,大多数此类图谱依赖昂贵的商业仪器,这就产生了一个问题:低成本、开源方法能否提供与商业平台同等价值的训练数据?

商业平台的开源替代方案

作者提出了 HyDrop v2,一种改进的基于微滴的单细胞 ATAC-seq 方法,使用定制水凝胶小珠对单个细胞进行条形码标记。他们通过构建来自两种截然不同体系的大型图谱——成年小鼠运动皮层和晚期果蝇胚胎——将 HyDrop v2 与一种被广泛使用的商业试剂盒进行了基准比较。HyDrop v2 产生了可比的数据质量——回收出相同的主要细胞类型和非常相似的一组可及 DNA 区域——而每个小鼠大脑样本的成本约为商业方法的十四分之一。更重要的是,HyDrop v2 的数据可以与商业数据无缝整合,这意味着研究人员在构建超大图谱时可以混合使用不同平台的数据。

训练深度学习模型以读取增强子逻辑

为了检验更便宜的数据是否足以用于高级建模,团队分别在商业图谱或 HyDrop v2 图谱上训练了序列到功能的深度学习模型。这些模型直接从 DNA 序列学习,预测每个区域在每种细胞类型中的可及性强度,并能突出可能对应特定调控蛋白结合位点的短序列模式。在小鼠皮层中,用 HyDrop v2 数据训练的模型在总体准确性以及恢复先前在活体动物中验证过的已知增强子“开关”方面,与使用商业数据训练的模型不相上下。在果蝇胚胎中,两种平台支持的模型都能在 2000 碱基对的区域内局部放大,并精确定位出实际驱动组织特异性增强子活性的核心约 500 碱基对片段,例如控制神经母细胞或肌肉基因表达的区域。

更多细胞胜过更深测序

对任何实验室而言,一个关键的实际问题是应该对每个细胞进行深度测序,还是以较低深度测序更多细胞。通过系统性地改变细胞数量和每个细胞的 DNA 片段数,作者表明,只要包含足够多的细胞,当测序深度降低到中等水平时,模型性能几乎不会明显下降。相比之下,减少细胞数会明显损害模型准确性,尤其是在同时衡量多种细胞类型的性能时。由于 HyDrop v2 的每细胞成本低得多,研究者可以轻松添加数万额外细胞,从而以极低的成本恢复甚至超越基于商业平台模型的性能。

Figure 2
Figure 2.

在 DNA 上看到蛋白的足迹

研究还考察了不同实验平台是否会在 ATAC-seq 酶切割 DNA 的方式上引入微妙偏差,这些偏差可能会误导试图推断蛋白在基因组上定位的模型。利用一个单独的神经网络工具来校正酶偏好性,作者表明 HyDrop v2 和商业试剂盒在小鼠和果蝇细胞中产生的酶活性模式几乎相同。校正后,两套数据都显示出细致尺度的“足迹”,即调控蛋白和核小体似乎保护 DNA 不被切割的区域,而这些足迹与序列到功能模型所突出的序列模式一致。这种一致性表明,开源和商业平台在研究蛋白如何与 DNA 相互作用的细节时同样适用。

这对解读基因组意味着什么

对非专业读者来说,结论是我们现在可以构建非常大且价格可负担的单细胞 DNA 使用图谱,并在这些图谱上训练强大的深度学习模型,而不必完全依赖昂贵的专有硬件。HyDrop v2 提供的数据在增强子预测、序列模式解释和蛋白结合足迹方面与领先商业方法不相上下,前提是剖析的细胞数量足够。这为构建生物体范围内的调控元件图谱以研究健康与疾病打开了大门,加速了读取基因组调控指令及为研究和未来治疗设计新的、精确靶向的遗传开关的努力。

引用: Dickmänken, H., Wojno, M., Mahieu, L. et al. Evaluating single-cell ATAC-seq atlasing technologies using sequence-to-function modeling. Nat Commun 17, 1951 (2026). https://doi.org/10.1038/s41467-026-68742-4

关键词: 单细胞 ATAC-seq, 增强子, 深度学习模型, 基因调控, 开源基因组学