Clear Sky Science · zh

DeepRetro 通过迭代大型语言模型推理发现逆合成路径

2026-02-12 · 返回目录

为什么更聪明的化学很重要

今天许多最重要的药物和材料始于结构复杂且难以合成的分子。在实验室中规划如何构建这些分子，有点像想办法拆解然后用零件重建一台复杂机器。这个规划步骤称为合成设计，常常是药物发现和先进材料研发的主要瓶颈。本文介绍了 DeepRetro——一个开源的新系统，它将大型语言模型（与现代聊天机器人相同的那类人工智能）与传统化学软件和人工专业知识结合起来，设计出用于合成极其复杂分子的现实逐步“配方”。

把大分子拆成可处理的部分

化学家通常通过从目标分子反向推理来规划合成，心里把它“折断”成可以购买或合成的更简单片段。几十年来计算机一直在辅助这一任务，但现有工具在分子过于纠结、奇特或与其反应数据库中已有条目差异太大时会遇到困难。DeepRetro 通过结合两种方法来解决这一问题：快速的基于规则的引擎，用于应用已知反应模式；以及具备语言模型“头脑”的组件，能够提出不寻常但化学上合理的拆解方式。与其一次性要求 AI 想出完整配方，DeepRetro 每次只让它给出一步向后的拆分，然后对每个建议进行仔细核验。

让 AI 保持诚实

大型语言模型的一个关键问题是它们可能会“编造”——自信地提出违反基本化学原则的步骤。DeepRetro 在 AI 外层包裹了多层自动校验。每一个被提议的中间体都会经过简单正确性检测（例如原子的键数是否合理）、可能的稳定性评估以及与该反应其余部分的内部一致性检查。未通过这些测试的建议会被拒绝。对于通过的建议，系统会调用更传统的搜索引擎，查看已知化学能否将这些构建模块连接回真实可购的起始原料。化学家也可以通过图形界面在任何步骤介入：编辑结构、仅重新运行路径的一部分，或添加常用的保护基以使多步合成更可行。

对系统进行测试

为了评估 DeepRetro 的效果，作者在来自专利数据库的标准反应基准集合上进行了测试。在单步预测——猜测哪些反应物可以生成给定产物——方面，该系统在若干衡量指标上与现有强大工具持平或优于它们，尤其是在即便辅料不同也能正确识别主要前体方面。对于多步规划，DeepRetro 在两个高难度测试集中几乎解决了所有目标，包括一组尤为棘手的药物类分子，其表现超过了早期的最先进方法。值得注意的是，这些测试是在完全自动模式下运行的、没有人工修正，表明该框架即便在专家化学家介入之前也具有稳健性。

真实世界的案例故事

单靠基准测试可能无法捕捉化学家真正关心的点：一个提议的路线看起来是否像熟练实验者在实验室中会尝试的那样？因此作者研究了五种著名且高度复杂的天然产物，包括抗生素红霉素 B 和海鞘毒素（discodermolide），以及生物碱雷斯普林（reserpine）。在每个案例中，DeepRetro 与人类化学家以迭代环路协同工作。AI 提出断裂点和路线片段；化学家剔除可疑想法、修正微妙的立体化学问题，并有时用一个关键中间体引导系统。在两个案例中，DeepRetro 生成了完整的合成方案，其总体策略在文献中找不到对应，尽管各个反应本身是已知的。这表明该系统能够将熟悉的化学反组合成真正新的整体路线。

承诺、局限与下一步

DeepRetro 表明大型语言模型可以不只是巧妙的文本生成器；当在严格监督下并与既有工具结合时，它们可以帮助在巨大的化学合成搜索空间中导航。该框架仍有局限：通用语言模型常常提出不稳定或不现实的中间体，面对最难合成的分子时若无人工监督仍无法实现完全自动化的解决方案。不过，DeepRetro 在标准测试中的优异表现、在挑战性案例研究中的成功以及其开源发布，使其成为未来 AI 辅助科学发现的实用范式。对非专业读者而言，结论是：AI 正从单纯预测分子性质，走向共同设计全新的实验室配方，未来几年有望加速药物和材料的创造。

引用: Sathyanarayana, S.V., Hiremath, S.D., Rahil Kirankumar, S. et al. DeepRetro discovers retrosynthetic pathways through iterative large language model reasoning. Sci Rep 16, 8448 (2026). https://doi.org/10.1038/s41598-026-38821-z

关键词: 逆合成, 大型语言模型, 有机合成规划, 药物发现, 计算化学