Clear Sky Science · zh
polyRETRO:一种基于语言模型的方法,用于预测目标高分子的聚合类型和单体
将数字塑料的设想变为真实材料
在计算机上设计新型塑料如今变得快速且常规,但在实验室中实际制备这些材料仍然需要大量人工试错。本文介绍了一款名为 polyRETRO 的工具,帮助化学家确定如何从简单的起始小分子构建目标聚合物,从而有望加速从数字构想到现实产品的过程。
为什么制造新塑料依然困难
现代算法能够提出适用于电子、电器包装或医疗等领域、具有期望性能的聚合物结构。然而,大多数设计停留在屏幕上,因为化学家必须手动推导出合成路线:决定购买或合成哪些小分子、使用哪种反应类型,以及这些片段如何拼接成长链。对于普通小分子,计算机程序已有类似的“配方规划”功能,但聚合物尺度更大、结构更复杂,且缺乏支持自动规划的详尽反应数据库。
会“说化学”的语言模型
作者通过训练大规模语言模型——与驱动聊天机器人的 AI 属于同类——来处理这一差距,使其能够推理聚合物化学。其系统 polyRETRO 从表示聚合物重复单元的简明文本编码(SMILES 字符串)出发。仅凭这一输入,模型首先预测最有可能生成该聚合物的反应大类:链增长反应、逐步缩合反应或开环反应。随后模型以可读的化学语言推断官能团在反应中的变化以及可能存在的单体分子。
在文字与分子之间搭桥的模板
为实现此目的,团队收集了超过 11,000 条已记录的聚合路线,并将其提炼为反应“模板”。每个模板以人可读的方式描述了单体上的某些官能团如何结合形成聚合物链中的键,例如将醇与酸转化为酯键。语言模型不是逐原子比对,而是学习将聚合物的 SMILES 代码直接映射到这些模板之一。这种方法在保持化学逻辑可解释性的同时,使 AI 能对多种结构进行泛化。
从聚合物主链回溯到构建基块
一旦选定模板,polyRETRO 就相当于逆向运行该反应。它将重复单元想象为环的一部分,然后“切断”在聚合过程中形成的特定键。所得片段称为合成子(synthons),随后根据模板规则将其补全成合理的单体分子。对于由开小环形成的聚合物,这一步更为简单:模型仅需将链段重新闭合为其原始的环状单体。
系统表现如何
在数千个测试样本上,微调后的 GPT 模型约 98% 的时间正确识别反应类别,并在所研究的两大类聚合反应中超过 90% 的时间选择了正确的反应模板。当对未见过的聚合物运行完整管线(包括最终的单体预测步骤)时,系统大约在 88% 的案例中恢复出了正确的起始单体。余下多数案例仅在小的端基上存在差异,这些差异在实验室条件下通常仍是可行的。
这对未来材料意味着什么
对于非专业读者,polyRETRO 可被视为一个翻译器:它接受目标塑料结构并建议合理的原料清单和组装步骤。当前工作尚未给出催化剂、溶剂或温度等建议,但为化学家提供了清晰且可解释的合成起点。随着该方法扩展到更复杂的聚合物和更丰富的反应条件,它有望将日益增多的 AI 设计材料转化为可实际制备、测试并应用于日常技术的实体。
引用: Agarwal, S., Xiong, W. & Ramprasad, R. polyRETRO: a language model approach to predict polymerization class and monomers for a target polymer. npj Artif. Intell. 2, 52 (2026). https://doi.org/10.1038/s44387-026-00113-2
关键词: 聚合物逆合成, 大规模语言模型, 聚合物设计, 单体预测, 聚合物信息学