Clear Sky Science · ru

POLYT5: модель химического языка на базе энкодер–декодерной архитектуры для генеративного проектирования полимеров

· Назад к списку

Обучение компьютеров языку пластмасс

Пластмассы и другие полимеры повсеместно — от чехлов для телефонов и силовых кабелей до аккумуляторов для электромобилей. Тем не менее поиск новых полимеров с нужным сочетанием прочности, гибкости и электрических свойств остаётся медленным и дорогим. В этой статье представлена система искусственного интеллекта POLYT5, которая «осваивает» язык полимеров, чтобы предсказывать их свойства и придумывать перспективные новые образцы, помогая учёным быстро проектировать материалы для передовой электроники и накопителей энергии.

Figure 1
Figure 1.

Почему новые полимеры тяжело найти

Создание нового полимера похоже на поиск одной полезной фразы в библиотеке всех возможных сочетаний букв. Химики могут менять строительные блоки и тестировать результаты, но число вариантов астрономическое. Традиционное машинное обучение помогло предсказывать свойства известных полимеров, однако такие методы обычно опираются на вручную подобранные числовые дескрипторы и всё ещё требуют, чтобы люди сами предлагали кандидатов для тестирования. Универсальные большие языковые модели могут генерировать молекулы, но им часто не хватает химического «здравого смысла», необходимого для надёжного проектирования материалов: получаются формулы, которые выглядят корректно на бумаге, но нереалистичны или несинтезируемы в лаборатории.

Предоставление ИИ словаря, ориентированного на полимеры

POLYT5 решает эту проблему, обучаясь языковой модели специально на структурах полимеров, а не на общем тексте. Авторы собрали огромный набор для обучения: более 12 000 реальных полимеров из литературы и свыше 100 миллионов гипотетических полимеров, созданных с использованием хорошо известных реакций, применяемых химиками. Чтобы подать эти структуры в языковую модель, каждый полимер конвертировали в устойчивое строковое представление, гарантирующее химическую корректность. Специальные токены отмечают концы повторяющейся единицы и кодируют простую информацию о свойствах. Используя архитектуру энкодер–декодер T5, POLYT5 учится восстанавливать замаскированные фрагменты этих строк, постепенно усваивая повторяющиеся шаблоны — такие как распространённые каркасы и функциональные группы — и их связь с поведением материалов.

От чтения полимеров к предсказанию их свойств

После масштабного обучения POLYT5 дообучают для прикладных задач. Один набор моделей предсказывает ключевые свойства полимеров: температуру стеклования (когда пластик становится мягче), температуры плавления и разложения, электронную ширину запрещённой зоны, диэлектрическую проницаемость (насколько хорошо материал накапливает электрическую энергию) и растворимость в различных жидкостях. По тысячам примеров предсказания модели хорошо совпадают с известными значениями, с ошибками сопоставимыми или лучшими по сравнению с предыдущими подходами машинного обучения. Важно, что POLYT5 способна работать со многими различными свойствами, используя одно и то же внутреннее представление, что сокращает необходимость в пользовательских признаках или отдельных инструментах для каждой задачи.

Figure 2
Figure 2.

Просим модель придумать новые материалы

Та же архитектура может работать в обратном направлении: вместо предсказания свойств заданного полимера POLYT5 генерирует структуры полимеров, соответствующие желаемым целям. Авторы сосредоточились на температуре стеклования, поскольку она критична для механической и термической стабильности в устройствах. Указывая модели целевое значение — например, 500 кельвин — они просят её выдавать строковые представления гипотетических полимеров, которые должны смягчаться примерно при этой температуре. Команда изучила, как настройки сэмплинга влияют на баланс между разнообразием и корректностью, и в итоге сгенерировала более шести миллионов уникальных, химически осмысленных кандидатов, сосредоточенных вокруг выбранной температуры и при этом структурно отличающихся от известных полимеров.

Поиск нескольких жемчужин среди миллионов

Чтобы продемонстрировать практическую пользу, исследователи направили POLYT5 на конкретную задачу: полимеры для высокоэффективных электрических изоляторов и устройств накопления энергии. Начиная с миллионов сгенерированных кандидатов, они применили многоэтапный цифровой фильтр с использованием собственных предсказателей свойств POLYT5. Полимеры должны иметь относительно высокую диэлектрическую проницаемость, широкую электронную запрещённую зону, чтобы избежать пробоя, хорошую термостойкость и практические технологические окна обработки. Они также должны растворяться в распространённых, экологичных растворителях, таких как вода или этанол, и выглядеть синтезируемыми по стандартным правилам химии. Этот фильтр сокращает число вариантов примерно до 18 000 перспективных образцов. Из них команда выбирает один кандидат, простую в синтезе молекулу. Когда её синтезируют в лаборатории и измеряют свойства, экспериментальные результаты хорошо согласуются с предсказаниями POLYT5, лежа в пределах ожидаемых погрешностей.

Доступность передового проектирования полимеров

Помимо основной модели, авторы создали «агентивный» интерфейс ИИ, который позволяет пользователям работать с POLYT5 через диалог на естественном языке. Универсальная языковая модель интерпретирует запросы типа «Предскажите диэлектрическую проницаемость этого полимера» или «Предложите полимеры с высокой температурой плавления, растворимые в этаноле», а затем направляет их к соответствующим инструментам POLYT5. Эта схема скрывает сложность строковых химических форматов и выбора моделей, делая мощные возможности проектирования полимеров доступными как для специалистов, так и для неспециалистов. Проще говоря, POLYT5 показывает, что обучение ИИ чтению и письму на языке пластмасс может значительно ускорить поиск новых высокопроизводительных материалов и потенциально сократить путь от экрана компьютера до работающих устройств.

Цитирование: Sahu, H., Xiong, W., Savit, A. et al. POLYT5: an encoder-decoder foundation chemical language model for generative polymer design. npj Artif. Intell. 2, 30 (2026). https://doi.org/10.1038/s44387-026-00087-1

Ключевые слова: проектирование полимеров, модель химического языка, открытие материалов, диэлектрические полимеры, генеративный ИИ