Clear Sky Science · zh

可解释且生成式的深度学习模型阐明自发分相的无定形基序

2026-02-10 · 返回目录

为什么微小的蛋白片段很重要

在我们每个细胞内，许多重要分子经常汇聚成类似液滴的团块，称为生物分子凝聚体。这些液滴在没有膜壁的情况下组织细胞内的化学反应，影响基因如何被开启、信号如何传递以及细胞如何应对压力。许多此类液滴由被称为天然无定形区域的松散蛋白序列形成。然而，生物学家仍然难以确定究竟哪些短序列片段真正促成了这些液滴的形成。本研究提出了一个深度学习框架 PhaSeMotif，它既能识别这些关键片段又能设计新的片段，为研究人员提供了一种强有力的新方法来探测并重构细胞内的液滴。

从混杂的蛋白尾端到可检验的假说

许多蛋白含有不折叠成固定构象的长而灵活的尾段。这些无定形区域富含特定氨基酸，常常包含重复的模式或短基序。越来越多的研究表明，这类基序通过同时提供许多弱相互作用来驱动凝聚。然而，要在整个蛋白组中扫描出哪些短片段重要以及其原因，一直是一个主要瓶颈。现有的计算工具通常只对整个蛋白或大区域进行评分，几乎不提供关于应在哪些位点突变或在实验室中测试什么的指导。作者着手构建一个模型，不仅预测一个无定形区域是否能够形成液滴，还能指出哪些确切的子序列在承担主要作用。

液滴驱动基序的深度学习地图

团队汇编了跨多种物种的大规模无定形区域数据集，并根据其宿主蛋白是否可能发生相分离对它们进行了标注。随后他们训练了一个基于注意力机制的神经网络 PhaSeMotif，该网络接受任意长度的氨基酸序列并输出一个液滴形成评分。关键在于，网络结合了卷积层与注意力机制来评估序列中每个短窗口对该评分的贡献程度。通过沿模型进行追溯（使用类似有指导的反向传播的技术），作者提取出了高重要性片段——通常小于20个残基的短基序，模型认为这些基序对液滴形成至关重要。

在活细胞中检验预测

为验证这些基序是否确实重要，研究者转向了人体细胞中的一种光激活系统。他们将预测的液滴形成无定形区域与一个光敏寡聚化模块和荧光标签融合。在蓝光照射下，这些构建体迅速凝聚成明亮的斑点，实时报告相分离情况。团队随后通过用等长的中性柔性连接肽替换单个基序来“切除”这些基序。在测试的17个经修改序列中，有82%的样本其液滴形成明显减弱或完全消失，而对 PhaSeMotif 所标注片段之外的对照突变通常影响不大。重要的是，许多关键基序与已知会破坏凝聚的疾病相关突变位点重叠，突显了它们的生物学相关性。

发现基序类型的词汇表

在获得超过1.7万个基序后，作者进一步探问是否存在常见的液滴驱动片段“风味”。他们分析了氨基酸组成与排列模式，并将基序聚类为九个组别。有些簇富含芳香族残基和甘氨酸，符合粘性π–π与阳离子–π相互作用的特征。另一些簇包含分隔开的正负电荷斑块，有利于静电吸引以及选择性分配到特定的凝聚体。还有簇以脯氨酸和甘氨酸为主，支持柔性；或以长串谷氨酰胺为主，能形成致密的氢键网络。不同的细胞区室和凝聚体类型表现出这些基序类别的特征性混合，暗示基序成分有助于决定蛋白质将在哪儿以及与哪些伙伴发生凝聚。

设计新基序以验证规则

为了测试是基序“配方”而非精确序列决定液滴行为，团队为每个基序簇构建了独立的生成模型。这些变分自编码器学习了某一簇的统计模式，然后生成新的人工序列，保留相同的组成指纹但改变精确顺序。研究者将这些合成基序替换到原始片段被删除的蛋白中。值得注意的是，在21个案例中有18例，工程化基序在细胞中恢复了相分离，有时甚至调整了液滴形成的速度或密度。这表明 PhaSeMotif 捕捉到了可重复用于构建或修复液滴形成区域的内在设计规则。

这对生物学与疾病意味着什么

通过将可解释的深度学习与生成式设计和直接细胞学验证相结合，这项工作将“无定形的液滴形成区域”这一模糊概念转化为一组具体的、可组合的短基序。对非专家来说，结论是科学家现在能够“读写”那些控制细胞液滴如何组装、混合与失常的微小蛋白片段。这为更快发现这些片段中致病突变、对凝聚体如何组织细胞生理的机制进行更清晰的研究，以及最终为了治疗或合成生物学用途而有目标地设计调控液滴的蛋白质，打开了大门。

引用: Yang, H., You, K., Ma, L. et al. Interpretable and generative deep learning models explicate phase separating intrinsically disordered motifs. Nat Commun 17, 2571 (2026). https://doi.org/10.1038/s41467-026-69252-z

关键词: 生物分子凝聚体, 天然无定形蛋白质, 相分离, 深度学习, 蛋白质基序