Clear Sky Science · zh
JanusDDG:一种通过双向注意力将物理知识融入的基于序列的蛋白质稳定性神经网络
这项研究为何重要
蛋白质是维持细胞生命活动的微小机器,哪怕其组成单元发生一个微小变化,也可能使其功能变强、变弱或完全失效。能够预测这些变化如何影响蛋白质的稳定性,对于理解遗传性疾病以及设计更好的药物和工业酶至关重要。本文介绍了 JanusDDG,这是一种新的人工智能模型,它仅基于蛋白质序列预测突变如何改变蛋白质稳定性,同时遵守支配蛋白质折叠的基本物理规律。
脆弱的蛋白质机器问题
当蛋白质折叠成三维构型时,需要在多种力之间取得平衡,就像一顶由多根绳索支撑的帐篷。突变可以收紧某些绳索或放松另一些,从而使结构更稳定或更不稳定。对这些效应的实验测试既慢又昂贵,因此研究者大量依赖计算模型来估算稳定性变化,通常记为 ΔΔG。现有工具在拥有详细三维结构信息时常表现最佳,但它们有时会悄悄违反热力学规律,导致表面上看似准确的预测在物理上一致性差,或在面对新蛋白时难以信任。

读取蛋白质序列的新方法
JanusDDG 从蛋白质语言模型入手,这类大型神经网络在数百万条蛋白质序列上训练,有点类似语言模型从文本中学习。这些模型将每个氨基酸转化为丰富的数值表征,捕捉进化和典型折叠行为的模式。JanusDDG 同时输入原始蛋白质序列和其突变体序列,比较它们的表征,并使用一种专门的注意力机制,侧重于突变如何扰动其周围的上下文。由于只需要序列信息,JanusDDG 可用于三维结构未知或难以确定的蛋白质。
将物理规律内嵌到人工智能中
JanusDDG 的一项关键创新是其设计遵循基本物理原理。作者关注吉布斯自由能的两个性质,这一量度决定了蛋白质稳定性。其一,反对称性(antisymmetry)意味着若从变体 A 到变体 B 的稳定性变化为某一数值,则反向变化必须抵消这一效应。其二,可传递性(transitivity)意味着从第一种变体到第二种再到第三种的总效应,应等于直接从第一种到第三种的效应。JanusDDG 的架构通过对交换输入运行两份镜像网络并组合它们的输出来强制实现反对称性,使正向和反向预测互为相反数。通过在训练中加入特殊的损失项,模型被鼓励在把突变路径拆分为多步时保持预测一致性,从而促进可传递性。

在多种突变类型上的性能测试
研究人员在一个经整理的包含数千条测量了稳定性变化的突变数据集上训练了 JanusDDG,并在若干相互独立且与训练数据序列重叠极低的基准测试集上进行了评估。这种谨慎的设计降低了模型仅记忆熟悉蛋白质的风险。在三个广泛使用的单点突变集合上,JanusDDG 的表现与其他基于序列的方法及许多依赖三维结构的方法不相上下甚至超出它们。它也能处理多重同时发生的突变——这是更棘手的情形,因为突变间的相互作用往往非线性相加。值得注意的是,对于空间上彼此接近的突变对,JanusDDG 的准确度并未下降,而早期模型在这类情况中常常表现较差。
从数值到有用的稳定性标签
在实际应用中,研究者通常不仅关心稳定性变化的大小,还关心突变是明显稳定化还是不稳定化。作者在一个侧重区分稳定化与不稳定化变体的数据集上测试了 JanusDDG。尽管模型取得了稳健的表现,但该任务相比预测原始数值仍更具挑战性,尤其在类别边界附近实验噪声和生物学不确定性最大时表现较差。尽管如此,JanusDDG 与其他顶级方法相比仍有竞争力,表明其物理感知的设计和丰富的序列嵌入有助于比许多竞争者更好地应对这种不确定性。
对未来蛋白质设计的意义
总体而言,JanusDDG 展示了将现代基于序列的人工智能优势与严格的物理约束结合的可行性。通过把蛋白质视为可像语言一样解读的序列,同时坚持预测必须满足反对称性和可传递性,该模型给出了既准确又热力学一致的稳定性估计。对非专业读者而言,关键结论是:我们正越来越接近可靠的、无需结构信息的工具,能够快速筛选大量可能的突变,突出可能稳定化的改变或标记与疾病相关的风险变体,同时以物理定律为基础,而非仅仅依赖统计捷径。
引用: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9
关键词: 蛋白质稳定性, 基因突变, 蛋白质设计, 机器学习, 热力学