Clear Sky Science · zh
从单序列到进化轨迹:蛋白质语言模型捕捉SARS‑CoV‑2的进化潜力
这对未来大流行有何意义
在大部分COVID‑19大流行期间,科学家多是处于追赶状态:现实中新的变体先出现,实验室才能测定这些变化对传播力或免疫逃逸的影响。本研究表明,最初用于理解人类语言的强大计算模型可以“阅读”蛋白质的“语言”,仅凭其构成序列就推断冠状病毒刺突蛋白可能如何变化和适应。这种能力有助于研究者更早标记令人担忧的变体,并可能推广到许多其他病原体。
教计算机“读”蛋白质
作者使用一种名为ESM‑2的蛋白质语言模型,在来自生命树各处的数千万条蛋白质序列上训练。类似语言模型从词汇中学习语法和意义,ESM‑2学会识别哪些氨基酸模式在真实蛋白质中“合理”。当给出SARS‑CoV‑2刺突蛋白序列时,模型为每一种可能的突变赋予两个关键分数:一个反映改变序列与模型学到的蛋白质结构规则契合程度的语法性分数,以及一个衡量在模型内部表征中整体蛋白差异程度的语义分数。这些分数可以对每一个可能的单点突变在计算机上计算出来,这一策略被称为体外(in silico)深度突变扫描。 
绘制病毒能改与不能改的区域
通过扫描刺突蛋白的所有单字母变化,研究团队发现ESM‑2自然地重现了蛋白质的主要结构特征。S2部分形成驱动膜融合的稳定柄部,被预测为高度受限:那里大多数突变会显著降低语法性,暗示会损害蛋白质结构或功能。相反,S1外表面的一些区域(包括N端结构域和受体结合结构域)则容纳更多变化。这与真实病毒基因组中的观察一致:这些暴露区域积累有助于病毒附着细胞和逃避免疫的突变,而结构核心则相对保守。
揭示突变间的隐性协作
蛋白质并非一组独立位点;一个突变可以改变其他位点是否可接受,这种现象称为表位互作(epistasis)。研究者从Omicron BA.1的刺突蛋白出发,计算上将其标志性突变逐一“还原”回原始武汉序列,以探测这种互作。每次还原都会改变模型对其他每个位置上氨基酸的概率估计。大幅变化揭示了命运相连的位点对。利用这一方法,研究突出显示了受体结合结构域中如484和501位置等已知热点,这些位置共同影响免疫逃逸和与ACE2受体的结合。它还指出了一些不那么明显的残基簇,这些簇在后来关于Omicron在人体鼻上皮细胞增强生长的实验研究中得到证实,表明模型确实捕捉到了真实的结构和功能耦合。

追踪病毒进化并识别异常者
除了单点突变外,作者还评估ESM‑2是否能解释随时间出现的整套变体序列。他们对每个命名的SARS‑CoV‑2谱系选取一个刺突序列进行嵌入,并使用称为evo‑velocity的方法将它们放置在二维地图上,该方法还推断出主要的变化方向。所得布局反映了已知的系统发育树:早期谱系聚集在一起,随后对应Alpha、Delta、Omicron和重组谱系的分支按照时间顺序分出。简单的汇总统计,如平均语法性和语义距离,清晰地区分了非变体谱系、早期关注变体以及Omicron类病毒,表明模型的内部表征追踪到了有意义的进化转变。
将嵌入转化为预警系统
为探索实际监测,团队引入了一个动态语义分数:每条新刺突序列不仅与原始武汉株比较,还与此前三个月流行病毒的平均水平比较。应用于英国的密集测序数据,这一移动分数在Alpha、Delta及连续的Omicron子谱系兴衰时产生了明显波动。与当前平均水平相差一到两个标准差的序列被标记为潜在的关注序列。仅凭这些早期异常者,该方法本可标出世界卫生组织的大多数关注变体以及若干后来重要的分支(如JN.1),同时揭示在新兴谱系中反复发生改变的刺突蛋白特定位点。
对未来威胁的意义
总体而言,该研究表明,一个通用的蛋白质语言模型,直接套用即可,能够识别SARS‑CoV‑2刺突蛋白中哪些部分具有可塑性、哪些位点在结构上至关重要、突变如何协同作用,以及在大流行过程中刺突蛋白如何在进化空间中游走。由于该方法仅基于单一蛋白序列,不依赖预先存在的比对或详尽的结构数据,因此可在疫情早期、仅有少量基因组已知时就加以应用。随着类似模型被改进并针对病毒数据集进行微调,它们可能成为预测新病原体进化并为实验室研究和疫苗设计优先排序变体的重要工具。
引用: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9
关键词: 蛋白质语言模型, SARS‑CoV‑2 刺突蛋白, 病毒进化, 表观遗传互作(相互作用), 变体监测