Clear Sky Science · zh

CREsted:跨组织与物种建模基因组与合成细胞类型特异性增强子

· 返回目录

为何微小的 DNA 开关至关重要

你体内的每个细胞都携带相同的 DNA,然而脑细胞、血细胞和肌肉细胞的行为却大相径庭。一个主要原因是一层由短 DNA 开关(称为增强子)构成的隐性调控层,它们决定基因何时何地被激活。本文介绍了 CREsted,一款利用现代人工智能直接从 DNA 读取这些开关并设计新开关的软件工具包。该工作展示了我们如何从简单列出遗传元件,进阶到跨组织与物种理解及工程化这些元件。

Figure 1. 人工智能如何读取不同细胞中的 DNA 开关,以预测并设计其在各组织与物种中的活性。
Figure 1. 人工智能如何读取不同细胞中的 DNA 开关,以预测并设计其在各组织与物种中的活性。

读取细胞的控制开关

增强子类似调音台上的旋钮,将来自多种蛋白的信号合并,以微调每种细胞类型的基因活性。由于多种 DNA 模式可产生相似结果,增强子的规则复杂且难以凭肉眼推断。作者基于一种技术,该技术测量成千上万个单细胞中每段 DNA 的开放或闭合状态,这为识别基因组中活性增强子的位置提供线索。CREsted 将这些测量与底层 DNA 序列关联,并训练深度学习模型以同时预测许多细胞类型中各区域的可及性。这样即可将原始序列转化为调控活性的地图。

从数据到洞见的工具包

CREsted 不仅仅是单一模型:它是一条端到端的流水线。它首先清洗并重塑单细胞数据,减弱不同细胞类型间的技术偏差。随后训练灵活的神经网络,既可对活性区域进行分类,也可预测分级的可及性值。重要的是,CREsted 不止于预测。它可以缩放到识别对特定细胞类型最关键的单个 DNA 碱基,聚类重复出现的模式,并利用现有数据库与基因表达数据将这些模式匹配到可能的调控蛋白。最后,它包含设计工具,通过迭代“进化”合成 DNA 序列,使模型预测在选定细胞类型中具有强活性而在其他处活动甚微。

在大脑、血液、癌症与鱼类中的工具包测试

作者在若干丰富的数据集中演示了 CREsted。在小鼠运动皮层中,他们的模型高精度地预测出在不同神经元与支持细胞类型中哪些 DNA 区域是开放的,并优于一款领先的通用框架。通过突出关键序列模式,CREsted 恢复了特定神经元类别已知的调控蛋白,甚至能解释模体中单个碱基变化如何在神经元亚型间转换活性。在人类血细胞中,相关模型重新发现了许多在经典免疫增强子中已被测试的结合位点,并与独立的蛋白结合实验高度一致,支持所学得的序列模式具有生物学意义。

CREsted 也探索更具应用性的课题。在癌症中,它比较了一种同时出现在黑色素瘤与胶质母细胞瘤中的“间质样”细胞状态,使用在细胞系和患者肿瘤样本上训练的模型。增强子模式显示出共享主题但也存在重要差异,例如仅在肿瘤中出现的特定模体。在另一项测试中,作者询问在庞大基因组数据集上训练的“基础”模型是否真正优于更小的、面向任务的模型。经过细致微调后,这些大型模型仍难以匹配 CREsted 自有架构在细胞类型特异性分辨率方面的表现,表明在高质量单细胞数据上进行专门训练仍然至关重要。

Figure 2. DNA 模体如何在深度学习模型中流动,决定哪些细胞对天然与合成增强子发生反应。
Figure 2. DNA 模体如何在深度学习模型中流动,决定哪些细胞对天然与合成增强子发生反应。

在活体胚胎中设计新开关

最引人注目的演示来自斑马鱼发育。团队利用跨多个胚胎时期的单细胞 DNA 可及性图谱训练了名为 DeepZebrafish 的 CREsted 模型。随后,设计模块生成完全合成的增强子,预测仅在心肌、仅在体肌、仅在血管内皮或在心脏与肌肉的受控组合中启动。当这些人工序列被置于荧光报告基因之前并注入鱼卵时,许多序列确实仅在预定组织中发光。对其序列的分析揭示了主要发育调控子可识别的模式,证实模型捕捉到的是有意义的“语法”而非随机巧合。

这对理解与工程化基因组意味着什么

对于非专业读者,CREsted 可被视为一面用于基因组调控层的显微镜和一把用于新遗传元件的起草工具。它将 DNA 序列片段翻译为哪些细胞类型会使用它们的预测,指出驱动该行为的关键碱基与模体,并能建议应表现为期望方式的新序列。通过跨越大脑、血液、癌症与完整发育个体的工作,该研究表明统一的方法既能揭示共享规则,也能识别细胞类型特异的基因控制准则。从长远看,这类工具或可帮助研究者构建更精确的遗传标记、改进疾病模型,并更好地理解微小的 DNA 变动如何在细胞与组织中产生层层涟漪效应。

引用: Kempynck, N., De Winter, S., Blaauw, C.H. et al. CREsted: modeling genomic and synthetic cell-type-specific enhancers across tissues and species. Nat Methods 23, 946–959 (2026). https://doi.org/10.1038/s41592-026-03057-2

关键词: 增强子建模, 深度学习基因组学, 单细胞染色质, 顺式调控元件, 合成增强子