Clear Sky Science · ru

DeepRetro обнаруживает ретросинтетические пути через итеративное рассуждение больших языковых моделей

· Назад к списку

Почему умная химия важна

Многие из наиболее важных сегодня лекарств и материалов начинаются как сложные, трудносинтезируемые молекулы. Планирование того, как собрать эти молекулы в лаборатории, похоже на задачу по разборке и повторной сборке сложного механизма из запчастей. Этот этап планирования, называемый проектированием синтеза, часто становится узким местом в поиске лекарств и создании передовых материалов. В этой статье представлен DeepRetro — новая система с открытым кодом, которая использует большие языковые модели — тот же класс ИИ, что лежит в основе современных чат-ботов — в сочетании с традиционным программным обеспечением для химии и экспертными знаниями людей, чтобы строить реалистичные пошаговые рецепты синтеза очень сложных молекул.

Figure 1
Figure 1.

Разбивая большие молекулы на управляемые фрагменты

Химики обычно планируют синтез, работая в обратном направлении от целевой молекулы, мысленно «щелкая» её на более простые фрагменты, которые можно купить или синтезировать. Компьютеры помогают в этой задаче уже десятилетиями, но существующие инструменты испытывают трудности, когда молекулы становятся слишком запутанными, экзотическими или не похожими ни на что из их баз данных реакций. DeepRetro решает эту проблему, сочетая два подхода: быстрые движки на основе правил, применяющие известные шаблоны реакций, и «мозг» на базе языковой модели, который может предложить нетривиальные, но химически обоснованные способы разложения молекулы. Вместо того чтобы просить ИИ придумать полный рецепт за один шаг, DeepRetro запрашивает у него только один ретросинтетический шаг за раз и затем тщательно проверяет каждое предложение.

Как держать ИИ честным

Ключевая проблема больших языковых моделей в том, что они могут «галлюцинировать» — уверенно предлагать шаги, которые нарушают базовые химические принципы. DeepRetro окружает ИИ несколькими слоями автоматической проверки. Каждое предложенное промежуточное соединение проходит тесты на простую корректность (например, правильное число связей у атомов), на вероятную стабильность и на внутреннюю согласованность с остальной частью реакции. Предложения, не прошедшие эти проверки, отклоняются. Для тех, что проходят, система затем обращается к более традиционному поисковому движку, чтобы выяснить, можно ли с помощью известных реакций связать эти фрагменты обратно с реальными, покупными исходными материалами. Химики также могут вмешаться на любом этапе через графический интерфейс: они могут редактировать структуры, прогонять только часть пути заново или добавлять обычные защитные группы, которые делают многоступенчатую химию практичной.

Figure 2
Figure 2.

Проверка системы в деле

Чтобы оценить эффективность DeepRetro, авторы протестировали систему на стандартных эталонных наборах реакций из патентных баз данных. Для одноступенчатых предсказаний — угадывания, какие реагенты могут дать данный продукт — система сопоставима или превосходит сильные существующие инструменты по нескольким показателям, особенно в правильной идентификации основного прекурсора, даже когда побочные компоненты отличались. Для многоступенчатого планирования DeepRetro решил почти все цели в двух сложных тестовых наборах, включая коллекцию особенно трудных, похожих на лекарственные молекул, превзойдя предыдущие передовые методы. Важно, что эти тесты выполнялись в полностью автоматическом режиме, без человеческих корректировок, что демонстрирует устойчивость фреймворка ещё до вмешательства экспертов-химиков.

Истории из реальной практики

Только бенчмарки не всегда отражают то, что действительно важно химикам: выглядит ли предложенный маршрут так, как мог бы попробовать опытный практик в лаборатории? Поэтому авторы изучили пять известных, очень сложных природных продуктов, включая антибиотики эритромицин B и дискодермолид, а также алкалоид резерпин. Для каждого случая DeepRetro работал вместе с химиками в итеративном цикле. ИИ предлагал точки разрыва и фрагменты маршрутов; химики отсеивали сомнительные идеи, исправляли тонкие стереохимические ошибки и иногда подсказывали систему ключевым промежуточным соединением. В двух случаях DeepRetro сгенерировал полные синтетические планы, общая стратегия которых не совпадала ни с одним найденным авторами описанием в литературе, хотя отдельные реакции были известны. Это указывает на то, что система может комбинировать знакомую химию в действительно новые глобальные маршруты.

Обещания, ограничения и что дальше

DeepRetro показывает, что большие языковые модели могут быть чем-то большим, чем просто умными генераторами текста; при жёстком надзоре и в сочетании с проверенными инструментами они помогают ориентироваться в огромном поисковом пространстве возможных химических синтезов. У фреймворка всё ещё есть ограничения: универсальные языковые модели нередко предлагают нестабильные или нереалистичные промежуточные соединения, а полностью автоматические решения для самых сложных молекул остаются недостижимы без надзора человека. Тем не менее сильные результаты DeepRetro на стандартных тестах, успехи в сложных практических примерах и выпуск с открытым кодом делают его практическим шаблоном для будущих исследований с участием ИИ. Для неспециалистов ключевая мысль такова: ИИ переходит от простого предсказания свойств молекул к совместному проектированию новых лабораторных рецептов, что потенциально ускорит создание лекарств и материалов в ближайшие годы.

Цитирование: Sathyanarayana, S.V., Hiremath, S.D., Rahil Kirankumar, S. et al. DeepRetro discovers retrosynthetic pathways through iterative large language model reasoning. Sci Rep 16, 8448 (2026). https://doi.org/10.1038/s41598-026-38821-z

Ключевые слова: ретросинтез, большие языковые модели, планирование органического синтеза, поиск лекарств, вычислительная химия