Clear Sky Science · ru

polyRETRO: подход на основе языковых моделей для прогнозирования класса полимеризации и мономеров для целевого полимера

· Назад к списку

Превращение цифровых идей о пластике в реальные материалы

Проектирование новых пластиков на компьютере стало быстрым и рутинным, но фактическое изготовление этих материалов в лаборатории по‑прежнему требует много человеческих догадок. В статье представлено средство под названием polyRETRO, которое помогает химикам понять, как собрать желаемый полимер из простых исходных молекул, что потенциально ускоряет путь от цифровой идеи до реального продукта.

Figure 1. ИИ соотносит виртуальные проекты полимеров с реальными строительными блоками, чтобы цифровые пластики можно было получить в лаборатории.
Figure 1. ИИ соотносит виртуальные проекты полимеров с реальными строительными блоками, чтобы цифровые пластики можно было получить в лаборатории.

Почему создание новых пластиков всё ещё сложно

Современные алгоритмы могут предлагать структуры полимеров с желательными свойствами для электроники, упаковки или медицины. Тем не менее большинство таких разработок никогда не покидают экран, потому что химикам приходится вручную выяснять, как их синтезировать. Нужно решить, какие малые молекулы купить или синтезировать, какой тип реакции использовать и как эти фрагменты соединяются в длинные цепи. Для обычных малых молекул компьютерные программы уже предлагают подобное «планирование рецептов», но полимеры больше, сложнее и лишены богатых баз данных реакций, необходимых для автоматизированного планирования.

Языковая модель, говорящая на языке химии

Авторы устраняют этот разрыв, обучив большие языковые модели — тот же класс ИИ, что используется в чат-ботах — рассуждать о полимерной химии. Их система, polyRETRO, начинает с компактного текстового кода повторяющейся единицы полимера — SMILES-строки. Исходя только из неё, ИИ сначала прогнозирует, какой общий класс реакции с наибольшей вероятностью породил полимер: простое цепное наращивание, ступенчатая конденсация или процессы открытия кольца. Затем он делает выводы, простыми химическими формулировками объясняя, как изменялись функциональные группы в ходе реакции и какие мономерные молекулы должны были присутствовать.

Шаблоны, связывающие слова и молекулы

Чтобы это стало возможным, команда собрала более 11 000 задокументированных путей полимеризации и сведила их в реакционные «шаблоны». Каждый шаблон описывает, на понятном языке, как определённые функциональные группы мономеров соединяются, формируя связь в полимерной цепи — например, превращение спирта и кислоты в сложный эфир. Вместо сравнения детальных атом‑в‑атом шаблонов, языковая модель учится сопоставлять SMILES-код полимера напрямую с одним из этих шаблонов. Такой подход сохраняет интерпретируемую химическую логику и позволяет ИИ обобщать на множество разных структур.

Figure 2. ИИ "разрезает" полимерную цепь на фрагменты, рассуждает о реакциях и восстанавливает исходные мономерные ингредиенты.
Figure 2. ИИ "разрезает" полимерную цепь на фрагменты, рассуждает о реакциях и восстанавливает исходные мономерные ингредиенты.

От полимерного скелета к строительным блокам

После выбора шаблона polyRETRO фактически запускает реакцию в обратном направлении. Он представляет повторяющуюся единицу как часть кольца, затем «разрезает» ту связь, которая образовалась бы в процессе полимеризации. Получившиеся фрагменты, называемые синтонами, затем доводятся до реалистичных мономерных молекул в соответствии с правилами шаблона. Для полимеров, образованных за счёт открытия малых колец, этот шаг ещё проще: модель просто воссоздаёт кольцевую структуру исходного мономера.

Насколько хорошо работает система

По тысячам тестовых примеров тонко настроенная модель GPT правильно определяла класс реакции примерно в 98 % случаев и выбирала правильный реакционный шаблон более чем в 90 % случаев для обеих основных семейств полимеризации, изученных в работе. Когда весь конвейер тестировали на ранее невиданных полимерах, включая финальный шаг предсказания мономеров, он восстанавливал корректные исходные мономеры примерно в 88 % случаев. Многие из оставшихся примеров были почти верны, отличаясь лишь малыми концевыми группами, которые всё ещё могли бы быть практичны в лабораторных условиях.

Что это значит для будущих материалов

Для неспециалиста polyRETRO можно рассматривать как своего рода переводчик: он принимает желаемую структуру пластика и предлагает правдоподобные списки ингредиентов и шаги сборки. Хотя в текущей работе пока не даются рекомендации по катализаторам, растворителям или температурным режимам, она предоставляет химикам ясную и интерпретируемую отправную точку для планирования синтезов. По мере расширения подхода на более сложные полимеры и более богатые условия реакций он может помочь превратить растущий поток AI‑разработанных материалов в вещества, которые действительно можно изготовить, протестировать и использовать в повседневных технологиях.

Цитирование: Agarwal, S., Xiong, W. & Ramprasad, R. polyRETRO: a language model approach to predict polymerization class and monomers for a target polymer. npj Artif. Intell. 2, 52 (2026). https://doi.org/10.1038/s44387-026-00113-2

Ключевые слова: ретросинтез полимеров, большие языковые модели, дизайн полимеров, предсказание мономеров, информатика полимеров