Clear Sky Science · zh
使用变异进行预训练的基因组语言模型以更好地模拟功能基因组学
教计算机“阅读”DNA的语言
每个人的DNA包含数以百万计的微小差异或变异,这些变异影响从身高到疾病风险等诸多特征。科学家们知道许多变异会影响基因开启或关闭的强度,但要把DNA的字母与基因活性直接联系起来一直很困难。本研究引入了新的人工智能模型,把DNA视作一种语言,利用在数十万人的基因组中观察到的变异模式,更好地预测特定细胞和个体中基因的行为。

为什么可以把DNA当成人类语言来处理
正如单词会根据句子语境产生不同含义,DNA片段也会根据其基因组“上下文”发挥不同作用。调控区往往位于其所调控基因的远端,同一段DNA可能参与多种生物功能。作者基于这样一种想法:这些远程相关的模式类似自然语言中的多义性与上下文依赖。借用最初为文本开发的神经网络架构,他们旨在学习DNA“语法”以及人类遗传变异如何共同塑造基因功能和表达。
从真实人类变异构建基因组语言模型
研究人员创建了UKBioBERT,一种同时在参考人类基因组和来自约30万名英国生物样本库参与者的1300多万变异上训练的DNA语言模型。在训练过程中,模型会看到被修改的DNA序列,其中一些碱基被隐藏,必须根据上下文来猜测,类似于在句子中填补缺失单词。这样的自监督过程迫使模型内化哪些序列模式倾向于共现以及变异如何改变这些模式。研究团队随后通过检测功能相似的基因的序列在学习到的表示空间中是否靠近,来测试模型的内部表示。多种聚类衡量标准显示,UKBioBERT在未被告知基因功能的情况下,比先前的基因组模型更清晰地分离出基因功能。
从序列模式到细胞与个体中的基因活性
学习DNA的“语言”只有在能解释真实生物学,特别是基因表达——基因在不同细胞类型和个体中被开启的程度——时才有意义。作者将UKBioBERT的序列嵌入插入现有的深度学习框架中,用以从DNA预测基因活性。在细胞系层面,他们增强了名为EPInformer的架构,后者已将启动子和增强子序列与表观遗传信号结合。加入UKBioBERT的DNA嵌入以及基于文本的基因功能描述后,使得对多种人类细胞系中基因表达的预测更为准确,预测值与测量值之间的相关性更高,并且在交叉验证拆分中性能更稳定。
个性化预测以及基因可预测性的决定因素
研究团队随后转向更困难的任务:仅基于个体的全基因组序列预测该个体的基因表达。他们首先将UKBioBERT嵌入与传统统计方法结合,在GTEx队列中预测41个代表性基因的表达。其性能可与使用人工设计遗传特征的强基线相媲美或略逊一筹,但明显优于未微调的序列模型。有趣的是,不同基因在表达可预测性上差异很大。这种差异不能用诸如遗传率等标准指标很好地解释。相反,那些在个体间表达水平自然分成更清晰簇群的基因——UKBioBERT的嵌入能够捕捉到这些模式——往往更容易预测。参与多种生物功能的基因仅凭序列更难预测。

融合模型以获得更强的个体水平预测
为了进一步推进个性化预测,作者将UKBioBERT与强大的序列到功能模型Enformer和Borzoi融合,创建了UKBioFormer和UKBioZoi。这些混合模型结合了长程序列建模与对变异敏感的嵌入,并通过节省参数的技术高效地进行微调。在相同基因集合上,UKBioFormer常常优于先前最好的深度模型(Performer)和标准统计方法,针对那些表达相对可预测的基因表现尤为突出。它在从欧洲血统个体训练的模型应用于非裔美国人时也显示出改进的泛化能力,这表明从原始序列加上群体变异的学习捕捉到了一些跨群体共享的调控逻辑。
观察单个变异如何改变基因活性
由于UKBioFormer是神经网络,它可以被探测以揭示单个变异如何影响其预测。作者使用基于梯度的方法和体外突变(in-silico mutation)实验来估计改变特定碱基如何改变预测的表达。对于多个基因,包括名为JUP的基因,模型正确推断了多数已知调控变异(eQTL)的效应方向和近似大小,包括一些罕见变异。它还强调了这些变异周围的局部序列基序,与已知调控蛋白的结合模式相匹配。这表明模型并非仅拟合整体表达水平,而是在学习序列基序、变异与基因调控之间的机械性联系。
这项工作对基因组学和医学意味着什么
这项研究表明,直接在大量人类变异集合上训练基因组语言模型可以产生更丰富的DNA表示,从而改进基因表达预测和变异解释。虽然并非所有基因仅凭序列都可预测,但联合的UKBioBERT–UKBioFormer框架在表达模式有结构性且受变异驱动的基因上表现尤其出色。它还提供了一种在开展昂贵实验之前探索哪些变异最可能改变基因活性的实用方法。随着数据集变得更加多样化以及多基因训练方法的改进,此类模型有望成为将个人基因组与分子性状连接起来的重要工具,并最终为研究受遗传影响的疾病提供指导。
引用: Liu, T., Zhang, X., Lin, J. et al. Pre-training genomic language model with variants for better modeling functional genomics. npj Artif. Intell. 2, 46 (2026). https://doi.org/10.1038/s44387-026-00103-4
关键词: 基因组语言模型, 基因表达预测, 遗传变异, 功能基因组学, 英国生物样本库