Clear Sky Science · zh
一种用于统一 3D 分子表示学习的等变预训练变换器
教计算机以 3D 方式“看”分子
设计新药和新材料依赖于理解分子在三维空间中的真实形态和运动,而不仅仅是纸上的平面式化学式。本文介绍了一种强大的新型人工智能模型,它可以从多种分子的三维构型中学习——从小型类药化合物到大型蛋白质及其复合体——并利用这些知识预测它们相互作用的强度以及哪些分子可能成为未来的药物。
为多种分子世界建立一张通用地图
目前大多数化学领域的 AI 工具都是专用型:一种只在小分子上训练,另一种只针对蛋白质,第三种只处理它们的复合体。这种划分造成数据浪费,也难以将一个领域学到的知识迁移到另一个领域。作者提出构建一个单一的“基础”模型,称为等变预训练变换器(Equivariant Pretrained Transformer,EPT),该模型从多个公共数据库中大量的 3D 分子结构中学习。通过在一个共享框架内处理所有这些结构,模型能够识别原子排列和相互作用的共同模式,无论这些原子属于简单的小分子还是复杂纠结的蛋白质链。
将分子拆分为可管理的片段
为应对分子系统的巨大多样性和规模,研究者引入了“块”(blocks)的概念——小而有意义的原子片段。对于小分子,一个块将一个重原子及其相连的氢原子归为一组;对于蛋白质,每个氨基酸成为一个块。在训练过程中,模型既看到精细的原子信息,也看到较粗的块结构,从而将局部化学细节与诸如蛋白主链或结合口袋等更广泛的三维形状联系起来。这种块视图也创建了一种跨越不同分子类型的共通语言,使得单一模型能够理解多种分子体系。
通过修复噪声结构来学习
EPT 采用自监督训练,而不是被动接受像“该分子可溶”或“该分子结合力强”这样的显式标签。作者有意扰动每个分子块,随机平移和旋转其位置,然后让模型推断出将其恢复到原始结构所需的力和扭转。因为训练遵循基本的几何规则——若整个体系旋转或平移,分子的外观应保持不变——模型学会了一种符合物理的三维形状理解。这种去噪任务教会 EPT 块内和块间原子如何保持结合,以及几何细微变化如何影响稳定性。
将模型付诸测试
在超过五百万个结构上进行预训练后,研究团队对 EPT 进行了若干实际科学任务的微调。模型预测小分子与蛋白质口袋的结合强度、蛋白质界面上单一突变如何影响结合,以及化学家关心的小分子若干关键物理性质。在多样的基准测试中,该统一模型与或优于现有专门为单一领域精心设计的最佳工具。值得注意的是,当只在一种类型的数据(例如小分子)上训练时,模型仍然能对看似不同的任务(如蛋白结合)带来帮助,这表明它掌握的是广泛有用的化学原理,而非狭隘的技巧。
寻找新的新冠(COVID‑19)治疗方法
作者进一步展示了 EPT 的实用价值:将其应用于药物再利用挑战。他们先在蛋白质–配体复合体上对模型进行微调,然后用其对近 2,000 种已获批准的药物按其与 SARS‑CoV‑2 主蛋白酶(病毒复制所需的关键酶)结合能力进行排序。已知的抗 COVID‑19 药物在排名中上升,模型还指出了额外有前景的候选药物。对排名靠前的 12 种分子进行了更详细的计算机模拟,其中两种——包括一种最初并非为 COVID‑19 开发的药物——显示出特别强的预测结合力,并在实验上被证实以微摩尔(micromolar)水平抑制该病毒蛋白酶。
迈向通用分子级 AI 的一步
简而言之,这项工作表明,一个单一的、具备几何感知能力的 AI 模型能够学习多种分子系统的共享 3D 理解,并利用该理解回答广泛的科学问题。通过将分子组织为块并训练模型去“修复”被扭曲的结构,作者创造了一个不仅能更准确地预测数值,而且能加速诸如发现新抗病毒药物等任务的工具。EPT 指向了一个未来:通用的分子 AI 系统可以帮助化学家和生物学家更高效地探索化学空间,指导实验并缩短从原子结构到实际疗法和材料的路径。
引用: Jiao, R., Kong, X., Zhang, L. et al. An equivariant pretrained transformer for unified 3D molecular representation learning. Nat Commun 17, 2606 (2026). https://doi.org/10.1038/s41467-026-69185-7
关键词: 3D 分子表示, 等变变换器, 药物发现, 蛋白质–配体结合, 自监督学习