Clear Sky Science · zh
EPInformer:一种可扩展且整合的基于多模态表观基因组特征的启动子-增强子序列基因表达预测方法
为何预测基因活性很重要
你体内的每个细胞几乎携带相同的 DNA,但大脑细胞、血细胞和肝细胞的行为却截然不同。使它们彼此区分的是哪些基因被开启或关闭。若能直接从 DNA 及其相关信号预测基因活性,科学家就能更好地理解细胞如何发育、如何响应环境,以及在疾病中何时出现异常。本文介绍了 EPInformer——一种新型计算工具,利用人工智能的最新进展,比以往方法更准确、更高效地预测基因活性。

远端 DNA 开关如何控制基因
基因的控制不仅仅依赖其起始处的一小段 DNA(启动子)。它们还受被称为增强子的远端 DNA 片段影响,这些片段像远程开关一样作用。增强子可能位于基因数万甚至数十万个碱基之外,通过三维空间折叠与启动子接触。除了原始 DNA 序列外,沿 DNA 的化学标记和蛋白质标志——统称表观基因组信号——显示了哪些开关在特定细胞类型中处于活跃状态。传统的计算模型很难将所有这些信息,尤其是非常远端开关的影响,整合起来以预测基因表达强度。
一种紧凑的 AI 模型同时读取多种信号
EPInformer 基于一种称为 transformer 的现代 AI 架构,改编自语言模型。它不是读取句子,而是读取围绕基因及其候选开关的 DNA 片段。模型首先将每个启动子和附近的增强子序列转换为数值“嵌入”,以捕捉重要模式。它还可以附加额外通道,表示局部的化学标记、染色质开放性以及 DNA 区域在三维中相互接触的测量值。一种特殊的注意力机制随后聚焦于每个潜在开关与启动子之间的相互作用,同时有意忽略开关之间的相互作用。最后的预测步骤将这种学习到的表征与基因的基本 RNA 属性结合,输出预期的活性水平。
更优的预测与更少的计算资源
为了测试 EPInformer,作者在大型公共数据集中对其进行了训练和评估,这些数据集包含 DNA 可及性、化学标记、三维接触和多个人类细胞系的基因活性轮廓。他们比较了仅使用序列与距离的模型、加入表观基因组信号的模型,以及进一步包含三维接触图的模型。在标准 RNA 测序和一种以启动子为中心的测定(称为 CAGE)上,EPInformer 一直优于领先方法,包括那些扫描极长 DNA 片段的巨型仅序列模型。值得注意的是,它使用的参数量非常少——约 0.4 百万,而不是数亿——允许在单块图形处理器上约一小时内完成训练。这使得准确的基因活性建模对许多实验室而言不再依赖巨型计算集群。

发现关键开关及其控制词
由于 EPInformer 的注意力机制对每个候选增强子影响基因的强弱进行评分,它还能帮助定位特定细胞类型中最重要的开关。作者展示了这些注意力分数在恢复经实验证实的增强子—基因对方面,比一种基于活性与接触的广泛使用评分方法更准确,尤其对于远端开关表现更佳。他们进一步使用解释工具放大对得分最高增强子的 DNA 序列,识别出与已知转录因子结合位点匹配的短重复模式——转录因子在基因组中类似“控制词”。例如在与血液相关的细胞中,EPInformer 重新发现了红细胞发育主控调节因子的基序,表明它学到的是具生物学意义的规则,而不仅仅是记忆数据。
对未来生物学与医学的意义
通俗地说,EPInformer 通过结合 DNA 序列、化学标记与基因组三维折叠,为研究人员提供了一个更清晰且更经济的视角,了解基因在不同细胞类型中如何被开启或关闭。它能够突出哪些远端开关对特定基因重要,以及这些开关包含哪些控制词,这可以指导实验以检验突变或定向编辑如何影响基因活性。随着该方法扩展到更多细胞类型和不同基因变体,它有望帮助解释基因组非编码变异如何影响复杂性状与疾病,并为更精准的基因疗法设计提供参考。
引用: Lin, J., Li, Z., Zhao, Y. et al. EPInformer: scalable and integrative prediction of gene expression from promoter-enhancer sequences with multimodal epigenomic profiles. Nat Commun 17, 3975 (2026). https://doi.org/10.1038/s41467-026-70535-8
关键词: 基因表达预测, 增强子-启动子相互作用, 表观基因组学, 基因组学中的深度学习, 染色质结构