Clear Sky Science · zh
通过整合结构建模与数据驱动靶向突变对DEK1卡百洋(calpain)结构域可溶性的计算优化
为何让植物蛋白“听话”很重要
许多控制植物生长的蛋白质是体积大而脆弱的分子,在实验室里研究时往往难以溶解。其中一种名为DEK1的蛋白,从单个细胞层面到整体植物形态的塑造都发挥作用。但因为DEK1中关键的一段在细菌表达时容易聚集,其三维结构一直未能解析,这阻碍了对其理解与利用。本研究展示了如何通过计算建模和数据驱动的理性设计,使该问题区域变得更易溶解,同时不破坏其整体构造——为驯服难处理的蛋白提供了一般性方案。

针对关键植物蛋白的“问题点”下手
DEK1是一个异常大的跨膜蛋白,末端带有一个称为卡百洋(calpain)的切割酶结构域。遗传学研究表明,该结构域对苔藓和作物等植物的正常发育至关重要,但其实验结构尚未被解析。当研究者尝试在常用宿主细菌大肠杆菌中表达该卡百洋核心(称为CysPc)时,往往会变得不溶并形成致密的包涵体,从而几乎无法以用于高质量结构与功能研究的量和纯度进行纯化。因此,作者着手重新设计CysPc域,使其在保留整体形状的同时更容易溶解。
从零开始构建可靠的三维模型
由于没有该植物卡百洋的实验结构,研究团队首先必须预测其三维构象。他们结合了多种最先进的结构预测工具,包括 AlphaFold2、SWISS-MODEL 和 I-TASSER,并将这些预测与已知的哺乳动物卡百洋结构对齐。通过共识方法,他们用多项质量检测来精炼与检验模型,这些检测评估主链几何、填充情况以及与已知结构模式的一致性。独立的检查表明,经整合的CysPc模型比任何单一预测更可靠,为探索哪些氨基酸微调可改善可溶性提供了稳固起点。
在模拟溶剂中测试虚拟突变
有了三维模型,作者进行了广泛的分子动力学模拟,在计算机上追踪蛋白和周围水分子的时间演化。他们关注位于蛋白表面、具有柔性、疏水性或被预测为促聚集的残基。候选位点被单独替换为更亲水的氨基酸,并各自进行了200纳秒的模拟。对于每一种变体,他们测量了与可溶性相关的特征,如多少表面积与水接触、蛋白保持的紧致程度以及原子波动强度等。许多单点突变在不改变总体折叠的情况下,适度提高了溶剂暴露或内部氢键,表明CysPc的基本骨架可以容忍经过仔细挑选的替换。
让算法在突变空间中搜索
仅改动一个残基很少能显著提升可溶性,因此研究者接着探索了两连突变和三连突变的组合。他们从表现最好的单点突变构建了双突变和三突变的库,并对每一变体重新进行了模拟。为公正地评分与排序这些设计,他们定义了一个加权指标,结合了多项已知与可溶性相关的模拟特征,奖励水合与内部键合的增加,并惩罚过度柔性。随后他们使用一种强化学习算法(近端策略优化,PPO)在庞大的可能三突变组合空间中导航,提出最有前景的组合。这一数据驱动的搜索汇聚到一个特定的三重突变体,命名为MUT347,作为首选候选。

一种更紧凑、更亲水的酶变体
对野生型CysPc域与MUT347的详细模拟揭示了工程变体的差异。MUT347更快达到平衡,且从起始构象的总体偏差更小,表明在溶液中具有更高的结构稳定性。其环和链末端稍显不那么松弛,而核心催化区则保留了原有的柔韧性,暗示功能相关的运动得以保留。三重突变体在关键区域具有更多的内部氢键和更大的水可及表面,显示出更有序且更亲水的表面。在不同盐浓度和pH条件下,MUT347始终表现出低于原始蛋白的波动,这种行为通常与降低的聚集倾向相关。
这对研究与再利用蛋白意味着什么
对非专业读者而言,结论是作者构建了一个主要基于计算的流程,能够将一个笨拙、易聚集的关键植物蛋白片段转化为更可溶且易处理的版本,而无需先从实验上获知其结构。通过结合现代结构预测、长时间尺度模拟和能够同时权衡多种设计选择的学习算法,他们鉴定出一个被预测能稳定折叠并更有利于水合的三重突变。尽管仍需实验证实在试管中的改进,这一框架有望广泛用于拯救其他难以表达的真核蛋白,最终帮助科学家揭示目前难以触及的结构与功能。
引用: Dabiri, M., Levarski, Z., Struhárňanská, E. et al. Computational optimization of DEK1 calpain domain solubility through integrated structural modelling and data-driven targeted mutagenesis. Sci Rep 16, 7767 (2026). https://doi.org/10.1038/s41598-026-38805-z
关键词: 蛋白质可溶性, 计算突变学, 分子动力学, 植物卡百洋 DEK1, 蛋白质工程