Clear Sky Science · zh
用于蛋白质分类的新型通用基于结构域的方法
为什么对蛋白质进行分类对健康重要
在每个细胞内部,成千上万台微小的蛋白质机器维持生命的正常运行。其中最重要的要数蛋白激酶——这些酶可开关其他蛋白的活性,是许多现代药物(尤其是癌症疗法)的主要靶点。但科学家在将所有激酶按其功能整齐划分为不同家族方面仍面临困难。本文提出了一种新的激酶分类方法——原则上也适用于许多其他蛋白——通过聚焦执行功能的共享核心区域,以及其构建模块的基本物理和化学特性。这有望绘制出更清晰的蛋白质家族图谱,并最终为药物设计提供更有力的线索。

从家族树到更细致的指纹
传统上,研究者通过比较基因或蛋白序列并构建进化“家族树”来对激酶进行分组。这一方法非常成功,揭示了约500种人类激酶,它们可归入若干主要组别,如 AGC、CAMK、CMGC、STE、TK、TKL 等。然而,许多新发现的激酶无法被清晰地纳入这些组别:它们的序列看起来不同,即便它们在细胞中可能表现相似。标准的序列比较也很少关注每个氨基酸的基本属性——如体积、电荷或亲水性——这些属性决定了蛋白如何折叠与发挥功能。作者认为,要真正理解激酶家族,就需要超越字母式的序列匹配,审视这些物理化学指纹。
聚焦激酶的活性核心
为此,研究人员使用了高质量的 497 个人类激酶结构域对齐,这些紧凑的结构域是实际执行添加磷酸基团化学反应的部分。对该共享结构域图谱中的每个位置,他们将氨基酸字母替换为最多 30 个数值描述符,这些描述符捕捉了电荷、疏水性、极性和大小等属性,并为缺口增加了一个额外标记。得到的就是每个激酶结构域的详尽数值画像,其中三维空间中相似的行为应当在这些数值模式上表现为相似。他们随后使用主成分分析(PCA)来降低这些画像的复杂性,这是一种将多个测量压缩为若干主要方向以捕获最大差异的标准技术。
让数据自己聚类
在不告诉计算机任何激酶属于已知类别的情况下,团队对降维后的数值数据应用了一种无监督聚类方法——k-means。他们探索了多种可能的聚类数,并利用统计评分来识别最有意义的分组,然后将若干此类解合并成最终的 24 个簇,每个簇带有反映其在多次运行中稳定性的置信度分数。值得注意的是,约 90% 的激酶被归入与其原始类别标签相匹配的簇,这表明基于物理化学的结构域画像自然而然地恢复了现有分类——有时还能使之更为准确。一些簇包含一个主要类别与先前标为“OTHER”的激酶混合,这暗示那些离群者实际上可能属于已建立的家族。
发现关键的结构热点
除了分组外,该方法还能揭示哪些结构域位置真正驱动这些差异。通过将主成分与残基属性结合,然后在随机化测试中打乱数据,作者定位到若干特定位置——这些位置的属性模式能明显区分某一类与其他类。其中一个突出的例子是 CMGC 激酶的激活回路区的一个位点,该位点几乎总是带有带正电的残基,而大多数其他类别则不然。结构模型显示,在一个典型的 CMGC 激酶中,该残基有助于稳定附近的磷酸化位点,这些位点对酶的开启至关重要。有趣的是,一个“未分类”的激酶 CDC7 在该位点呈现出类似环境,支持了其即便进化历史不同也可能在功能上表现得像 CMGC 激酶的预测。

教会机器为未知贴标签
为了将这些见解转化为可操作的预测,团队在有已知标签的激酶的物理化学指纹上训练了有监督的机器学习模型——包括逻辑回归、随机森林和一种概率分类器。经过细致的调参和交叉验证后,这些模型能够仅凭少数主成分就准确地将激酶归入主要类别。将模型应用于 66 个此前被归入“OTHER”大类的激酶时,模型一致性地将其中若干(如 CDC7 和 ULK 家族成员)重新分配到特定激酶类。对这些重新分配的结构学检查,特别是在先前识别的关键位点周围,支持了机器的预测,并展示了该方法如何指导重新分类与后续的实验验证。
绘制蛋白质家族图谱的通用方案
用通俗的话说,这项工作表明,蛋白质可以不仅仅通过拼写其序列来分类,也可以通过提炼其核心部分在物理和化学上的表现来进行分类。对于激酶,这种以结构域为中心、基于属性的视角能恢复已知家族、帮助重新标注不合群者,并突出对活性与调控重要的结构“热点”。由于该方案仅依赖共享的结构域对齐和通用的氨基酸描述符,作者还演示了它可应用于其他蛋白群体,例如小型 GTP 酶,并可扩展到免疫球蛋白、G 蛋白偶联受体等。随着此类图谱变得更细致,它们可能推动更具选择性的药物设计、帮助解释致病突变,并提供一个更清晰、以功能为导向的蛋白质宇宙图谱。
引用: Fadaei, S., Krebs, F.S. & Zoete, V. Novel universal domain-centric method for protein classification. Sci Rep 16, 11850 (2026). https://doi.org/10.1038/s41598-026-41142-w
关键词: 蛋白激酶, 蛋白质分类, 机器学习, 蛋白质结构域, 基于结构的生物学