Clear Sky Science · zh
评估深度学习生成的三维分子构象的有效性与合理性
为何AI设计的分子需要现实检验
人工智能正在迅速学会设计小型三维分子,使其能够嵌入疾病相关蛋白的凹槽与缝隙中。这些AI设计的结构有朝一日可能加速新药发现。不过有一个问题:许多计算机生成的分子在屏幕上看起来无碍,实际上却违反了化学的基本规律。它们可能扭曲成不可能的形状,或把原子堆得过于紧密以致在现实中无法存在。本研究提出了一种快速、基于物理的质量控制系统,用来判别哪些AI分子可能是真实的——哪些则应被丢进数字垃圾箱。

漂亮图片下掩盖的不可能形状
现代AI系统可以为给定的蛋白口袋提出成千上万的三维分子,但逐一验证每个提案是否物理合理却出奇地困难。传统的“几何检查”会看键长、键角、原子间接近程度,或将形状与已知参考结构比较。这些规则会漏掉许多微妙的问题,当新分子与参考集合截然不同时还可能给出误导性结论。来自量子力学的更严格能量计算虽然更可靠,但极其缓慢,使其不适合筛选数百万候选分子。因此,生成模型的开发者长期缺乏一种清晰、可扩展的方法来衡量其产物是否遵守基本的化学物理规则。
用于三维分子的两步健康检查
作者提出了一个两阶段框架,将机器学习的速度与先进量子化学的准确性结合起来。第一阶段称为“有效性测试”,旨在在任何清理之前识别出明显不现实的结构。它使用一种机器学习力场根据每个原子的局部环境估计其能量。位于极高能量环境中的原子——例如严重的原子碰撞、扭曲的环或错位的氢——会触发警报。该模块命名为HEAD(高能原子探测器),对构象进行有效或无效的标注,并且还能标记分子与其蛋白口袋之间的问题接触。
从粗略草图到化学上合理的构象
即便分子通过了第一道筛选,它仍可能把内部“铰链”——即可旋转键——拉扯到尴尬的角度。经过经典力场的快速清理后,第二阶段称为“合理性测试”,用于检查这些更细微的细节。此处的TED(扭转能量描述符)工具将分子按每个可旋转键周围切分成片段,并使用在数百万次量子级计算上训练的深度学习模型来预测每种扭转的能量代价。如果任何键处于比其首选范围高出约2千卡/摩尔以上的状态,该构象即被标记为不合理。TED关注这些局部的扭转应变,药物化学家十分关心这些应变,因为它们常与分子不稳定或难以合成相关。

将AI分子生成器置于显微镜下
为展示其方法的效力,研究者使用HEAD和TED审查了五种用于102个不同蛋白靶点的最先进3D分子生成AI模型。他们首先基于常规的“类药性”和合成可及性得分过滤掉不太可能成为有用药物的分子。剩余候选分子随后通过HEAD检查配体形状及其在蛋白口袋内的适配情况,并通过TED在精修后探测扭转应变。没有单一AI模型在所有方面都表现卓越:有些模型生成的分子与蛋白口袋相互作用良好,但内部几何常有应变;另一些则产生更友好的扭转结构但更频繁出现原子碰撞。这样的并排评估揭示出单凭简单对接得分或几何检查无法显现的明显强弱项。
面向未来药物设计的实用筛选流程
通过将类药性过滤、HEAD有效性检查和TED合理性检查串联起来,作者构建了一个完整的筛选流程,能在现代硬件上于数分钟内处理成千上万的AI生成分子。在该流程中,表现最佳模型生成的分子中只有大约五分之一能通过所有阶段,凸显出当前生成器仍产生大量“幻想化学”的程度。然而该框架具有灵活性:HEAD可以接入支持更多元素的新型机器学习力场,TED也可通过更丰富的数据和环境信息得到改进。对于非专业读者,结论很直接:这项工作提供了一道快速、基于物理的安全网,帮助将化学上可行的AI设计分子与那些在计算机之外会瓦解的大多数区分开来,使AI驱动的药物设计更接近可信的现实。
引用: Fan, F., Xi, B., Meng, X. et al. Assessing conformation validity and rationality of deep learning-generated 3D molecules. Nat Commun 17, 2481 (2026). https://doi.org/10.1038/s41467-026-69303-5
关键词: AI驱动的药物设计, 3D分子构象, 机器学习力场, 扭转能量, 基于结构的药物发现