Clear Sky Science · ru
Эквивариантный предварительно обученный трансформер для унифицированного обучения 3D-представлений молекул
Учим компьютеры «видеть» молекулы в 3D
Разработка новых лекарств и материалов опирается на понимание того, как молекулы действительно выглядят и ведут себя в трёх измерениях, а не только как плоские формулы на бумаге. В этой работе представлен мощный новый модель искусственного интеллекта, которая может учиться на 3D-формах самых разных молекул одновременно — от небольших веществ, похожих на лекарства, до крупных белков и их комплексов — и затем использовать эти знания, чтобы предсказывать силу их взаимодействия и выявлять кандидатов на будущие препараты.
Единая карта для множества молекулярных миров
Большинство современных ИИ-инструментов для химии — специалисты: один обучен только на малых молекулах, другой — только на белках, третий — только на их комплексах. Такое разделение приводит к потере данных и затрудняет перенос знаний из одной области в другую. Авторы вместо этого создают одну «фундаментальную» модель, названную Эквивариантным Предварительно Обученным Трансформером (EPT), которая учится на обширной коллекции 3D-структур молекул, взятых из нескольких публичных баз данных. Рассматривая все эти структуры в общей системе, модель способна распознавать общие закономерности в расположении и взаимодействиях атомов — будь то простая молекула‑лекарство или сложный узел белковых цепей. 
Разбиение молекул на управляемые фрагменты
Чтобы справляться с огромным разнообразием и размерами молекулярных систем, исследователи вводят концепцию «блоков» — небольших, значимых фрагментов атомов. Для малых молекул блок объединяет тяжёлый атом с присоединёнными к нему водородами; для белков каждый аминокислотный остаток рассматривается как блок. В процессе обучения модель видит как тонкую атомную детализацию, так и более грубую блочную структуру, что позволяет связать локальные химические особенности с более широкими 3D‑формами, такими как остов белка или карманы связывания. Такой блочный взгляд также создаёт общий язык, применимый к очень разным типам молекул, что делает возможным понимание их одной моделью.
Обучение через восстановление зашумлённых структур
Вместо явных меток типа «эта молекула растворима» или «эта сильно связывается», EPT обучают самоконтролируемым методом. Авторы преднамеренно нарушают положение каждого молекулярного блока, случайно смещая и вращая его относительно истинной позиции, а затем просят модель восстановить силы и моменты, необходимые для возвращения исходной структуры. Поскольку обучение учитывает фундаментальные геометрические симметрии — молекула должна выглядеть одинаково при повороте или переносе всей системы в пространстве — модель осваивает физически разумное представление 3D‑формы. Эта игра по «очистке шума» учит EPT тому, как атомы внутри блоков и между ними удерживаются вместе и как тонкие изменения геометрии влияют на стабильность. 
Испытание модели на практике
После предварительного обучения на более чем пяти миллионах структур EPT дообучают для нескольких реальных научных задач. Модель предсказывает, насколько сильно малая молекула связывается с карманом белка, как одиночная мутация на интерфейсе белка влияет на связывание, а также ключевые физические свойства малых молекул, которые важны для химиков. На разных бенчмарках унифицированная модель сопоставима или превосходит лучшие существующие инструменты, включая специализированные модели, адаптированные под одну область. Примечательно, что даже обученная на одном типе данных, например на малых молекулах, она полезна и для, казалось бы, других задач, таких как связывание с белками, что указывает на усвоение широких химических принципов, а не узких приёмов.
Поиск новых средств против COVID‑19
Авторы также демонстрируют практическую ценность EPT, применив её к задаче репрофилирования лекарств. Сначала они дообучают модель на комплексах белок–лиганд, а затем используют её, чтобы ранжировать почти 2000 уже одобренных лекарств по предсказанной способности связываться с главным протеазом SARS‑CoV‑2 — ключевым ферментом, необходимым вирусу для репликации. Известные против COVID‑19 препараты поднимаются в верхнюю часть рейтинга, а модель выделяет дополнительные многообещающие кандидаты. Двенадцать молекул с высокими оценками исследуют подробнее с помощью компьютерного моделирования, и две — включая одну, изначально не разработанную для COVID‑19 — показывают особенно сильное предсказанное связывание и подтверждаются экспериментально как ингибиторы вирусного протеаза на микромолярных уровнях.
Шаг к общей молекулярной ИИ
Проще говоря, эта работа показывает, что одна геометрически учитывающая модель ИИ может выработать общее 3D‑понимание множества молекулярных систем и затем использовать его для решения широкого круга научных задач. Организуя молекулы в блоки и обучая модель «чинить» искажённые структуры, авторы создают инструмент, который не только точнее предсказывает численные значения, но и может ускорить такие задачи, как поиск новых противовирусных препаратов. EPT указывает путь к будущему, в котором универсальные молекулярные ИИ‑системы помогают химикам и биологам эффективнее исследовать химическое пространство, направлять эксперименты и сокращать путь от атомной структуры до практических терапий и материалов.
Цитирование: Jiao, R., Kong, X., Zhang, L. et al. An equivariant pretrained transformer for unified 3D molecular representation learning. Nat Commun 17, 2606 (2026). https://doi.org/10.1038/s41467-026-69185-7
Ключевые слова: 3D-представление молекул, эквивариантный трансформер, поиск лекарств, связывание белок–лиганд, самостоятельное обучение