Clear Sky Science · zh

将多个 ESM 蛋白质语言模型的集体知识压缩到单一模型中

· 返回目录

为什么把多个蛋白质模型合并成一个很重要

每个人的 DNA 中都有数百万个微小差异,其中许多会改变蛋白质中的单个构件(氨基酸)。大多数这些变化无害,但有些会导致疾病。医生和研究人员希望有一种快速且准确的方法,仅凭蛋白质序列就能判断哪些变化有害。本文介绍了一种新策略,它将许多现有蛋白质“语言模型”的集体经验压缩到一个高效的系统中,其判断遗传变异影响的能力可与当前最好的工具相媲美甚至更优。

Figure 1
Figure 1.

从阅读句子到阅读蛋白质

蛋白质语言模型借鉴了驱动现代翻译和聊天系统的技术理念。它们不是学习句子中的单词,而是学习氨基酸串——蛋白质序列的“字母”——中的模式。通过在数亿条天然蛋白质上训练,这些模型捕捉到哪些位置高度保守、哪些位置允许变动的信号。然后可以利用这些模式为遗传变异打分:如果某个变化破坏了进化强烈保护的模式,则更可能有害。迄今为止,最强的方法通常将这些模型与额外信息结合,比如三维结构或进化家族树,使得它们强大但也复杂,有时难以广泛应用。

让模型互相教导

作者注意到,不同的蛋白质语言模型即便在相似数据上构建,也存在各自的优势和盲点。一个模型可能在识别某一蛋白家族的敏感区域方面特别敏锐,而另一个在别处表现更好。研究团队并没有简单地平均它们的意见,而是引入了“最大置信度”规则:对于每一个可能的蛋白质变化,他们在整个模型族中查看,并保留对该变化最有把握认为有害的那个模型的判断。这一步产生了一组富集的评分,保留了群体中任何模型所发出的最强进化警示,而不是将这些信号稀释掉。

把多重声音浓缩为一个

在这种富集信号的基础上,研究人员设计了他们称为共蒸馏(co-distillation)的训练过程。在这里,所有原始模型反复练习去匹配最强的组合信号,视各自在哪些地方最有信心而轮流担当“学生”和“教师”。在早期轮次中,最大置信度规则有助于突出一些模型可能错过的微妙但重要的模式。在后期轮次中,更温和的平均步骤帮助模型达成一致并平滑噪声。经过若干循环后,一个大型模型逐步吸收了此前分散在整个集成中的几乎所有有用信息。这个最终模型命名为 VESM‑3B,随后用来训练更小的版本,这些小模型运行足够快速以处理大规模遗传数据集,同时保留大部分准确性。

Figure 2
Figure 2.

仅用序列就能胜过复杂系统

尽管只使用原始蛋白质序列作为输入,VESM 系列模型能够匹配甚至超过依赖三维结构、人工构建的进化历史或人群数据的复杂竞争者。在来自 ClinVar 疾病变体数据库的临床基准测试中,主模型优于许多广泛使用的工具,甚至在某些情况下超过了 AlphaMissense——一个近期结合结构与人群数据的高调系统。关键是,VESM 在非常罕见的变体上仍保持良好表现,而这些恰恰是临床医生最难解读的变体。模型在实验室测量上也表现出色,这些测量测试突变对蛋白质适应性、稳定性和结合的影响,并且它们能在大型生物库数据中追踪变体对真实临床性状的效应大小和方向。

这对遗传学和医学意味着什么

通过谨慎地组合并精炼多个序列模型的优势,这项工作表明,仅凭原始蛋白质序列就能携带足够的信号,以达到预测遗传变化影响的最先进水平。由此产生的一系列工具,比起依赖结构或大量数据的系统更易部署,同时在来自人类、微生物和病毒的蛋白质上保持高度准确。对于临床医生和研究人员来说,这意味着对 DNA 变体进行更快速、更可靠的初筛,更清晰地判断某一变化可能对疾病相关性状产生多大影响,以及将强大预测模型带入日常遗传学和蛋白质设计工作流程的一种实用途径。

引用: Dinh, T., Jang, SK., Zaitlen, N. et al. Compressing the collective knowledge of ESM into a single protein language model. Nat Methods 23, 772–784 (2026). https://doi.org/10.1038/s41592-026-03050-9

关键词: 蛋白质语言模型, 变体效应预测, 遗传变异, 进化信号, 临床基因组学