Clear Sky Science · zh
探索预训练嵌入在机器引导蛋白质设计中的局限性:以预测AAV载体可行性为例
为什么病毒蛋白的细微变化很重要
基因治疗常依赖无害病毒(例如腺相关病毒,AAV)将治疗性基因携带入细胞。要让这些病毒“递送载体”更安全、更有效,通常只需在很长的蛋白质外壳上微调少数构件。本研究提出一个看似简单的问题:当关键改变非常微小且局部时,当今强大的人工智能工具是否能足够敏锐地捕捉到它们,从而指导更好的设计?
计算机如何“阅读”蛋白质的“句子”
现代蛋白质设计通常使用将氨基酸序列视为类似语言中句子的深度学习模型。诸如 ProtBERT 和 ESM2 之类的工具学会将每个蛋白质转换为一组数字,称为嵌入,它总结了在数百万天然蛋白中观察到的模式。这些预训练嵌入颇具吸引力,因为它们在无需新实验的情况下捕捉到关于结构与功能的丰富信息。但它们主要是为理解整条蛋白而构建,而非针对生物工程师只在一小块区域引入的稀有但关键的突变。
在真实基因治疗“主力”上测试AI
作者以广泛研究的基因治疗载体 AAV2 作为严格的测试对象。AAV2 的外壳(衣壳)是一条735 个氨基酸的长蛋白,但工程师通常只改变约20到50 个位置的短片段来改变病毒在体内的行为。研究团队分析了超过293,000 个实验测定的变体,这些变体的突变都局限在一个28 个氨基酸的窗口内。每个变体被标注为产生可行病毒颗粒或未能产生。这个大型且注释详尽的数据集使研究者能够检验不同序列编码方式——传统的一位有效(one-hot)编码以及若干种 ProtBERT 和 ESM2 嵌入——在生物信号来自极小区域时的表现。

原始嵌入遗漏了什么,以及它们仍然有用的地方
研究首先考察无监督分析,在这种分析中算法仅按相似性对序列进行分组,而不知道哪些序列是有用的。在这里,语言模型的全局序列级嵌入按设计方式产生了合理的分组,但并未清楚地区分可行与不可行的变体。传统的一位有效编码则更倾向于按蛋白长度分组,而长度与可行性之间的关系被证明只是弱相关的。当研究者转向监督任务——显式训练模型以预测可行性时,他们发现按氨基酸级别计算并在所有残基上平均信息的嵌入,通常优于全局序列嵌入。然而出人意料的是,经过压缩的简单一位有效编码在总体准确性上略微胜过预训练嵌入,尤其是在与神经网络一起使用时。
为什么突变模式难以察觉
为理解这些混合结果,作者检查了哪些变体所有模型都能一致判断,哪些变体则一贯导致混淆。易于分类的序列几乎总是可行的,并显示出一个明确的“禁区”:成功的变体倾向于避免在某些位置之间的埋藏结构片段中发生突变,或者仅限于细微的替代。相反,难以处理的案例在突变位置和数量上表面上看起来相似,但却不可行。团队随后构建了合成示例,将突变沿整个蛋白扩散或集中。他们发现,当数百个位置发生变化时,标准嵌入才开始清晰地区分组——远多于真实生物工程中实际或典型的变化量。这表明通用的蛋白质嵌入对稀疏或高度局部化的突变相对不敏感,而这些突变往往决定了工程蛋白是否成功。

调整AI以聚焦关键部分
研究者接着探讨是否可以通过对 ProtBERT 和 ESM2 在 AAV 可行性标签上进行微调,让模型更关注那一小段突变窗口。他们为每个模型附加了一个简单的分类层,并端到端训练整个系统。微调后,性能得到提升,达到或超过基于一位有效编码的最佳模型,并且生成的嵌入在可视化图中终于清晰地区分了可行与不可行的序列。有趣的是,全局序列嵌入从这一过程中受益最多:在任务特定反馈的引导下,它们学会放大关键位置的影响,而不是让这些位置被序列其余部分淹没。
这对未来蛋白质设计意味着什么
对于关心人工智能将如何塑造下一代基因疗法和酶的人来说,这一结论既复杂又充满希望。开箱即用的蛋白质语言模型尽管强大,但可能忽视那些常常决定设计蛋白是否有效的细粒度变化。在此类情境中,简单的编码与降维方法仍能保持竞争力。然而,通过在高质量实验数据上对这些模型进行微调——即便突变稀少且高度聚集——研究者也可以使模型重新聚焦于序列中最关键的部分。实际而言,这项工作表明,将大型预训练模型与任务特定的再训练相结合,为更可靠的机器引导病毒载体和其他工程化蛋白的设计提供了一条稳健的路径。
引用: Rodrigues, A.F., Ferraz, L., Balbi, L. et al. Exploring the limits of pre-trained embeddings in machine-guided protein design: a case study on predicting AAV vector viability. Sci Rep 16, 10974 (2026). https://doi.org/10.1038/s41598-026-45458-5
关键词: 蛋白质语言模型, AAV衣壳设计, 基因治疗载体, 蛋白质嵌入, 机器引导的蛋白质工程