Clear Sky Science · ru

JanusDDG: нейросеть с физическим учетом для предсказания устойчивости белков по последовательности с помощью двустороннего внимания

2026-02-03 · Назад к списку

Почему это исследование важно

Белки — это крошечные машины, поддерживающие жизнь клетки, и даже одна замена в их строительных блоках может сделать их работу лучше, хуже или вовсе невозможной. Умение предсказывать, как такие изменения влияют на устойчивость белка, имеет ключевое значение для понимания наследственных заболеваний и для проектирования более эффективных лекарств и промышленных ферментов. В этой статье представлена JanusDDG — новая модель искусственного интеллекта, которая предсказывает, как мутации изменяют устойчивость белка, опираясь только на последовательность аминокислот и одновременно соблюдая базовые физические законы, управляющие сворачиванием белков.

Проблема хрупких белковых машин

Когда белок сворачивается в свою трёхмерную форму, он удерживается множеством взаимодействий, подобно палатке, натянутой множеством верёвок. Мутации могут натянуть одни «верёвки» и ослабить другие, делая структуру более или менее устойчивой. Экспериментальные проверки таких эффектов медленны и дороги, поэтому исследователи широко используют компьютерные модели для оценки изменений устойчивости, обозначаемых как ΔΔG. Существующие инструменты часто работают лучше при наличии детальной 3D-структуры и могут тихо нарушать законы термодинамики, что приводит к предсказаниям, выглядящим корректно на бумаге, но физически непоследовательным или ненадёжным для новых белков.

Новый способ чтения белковых последовательностей

JanusDDG решает эту задачу, начиная с языковых моделей для белков — класса больших нейросетей, обученных на миллионах белковых последовательностей, аналогично тому, как языковые модели учатся на тексте. Эти модели переводят каждую аминокислоту в богатое числовое представление, улавливающее эволюционные закономерности и типичное поведение при сворачивании. JanusDDG принимает последовательности исходного белка и его мутанта, сравнивает их представления и использует специальный механизм внимания, сосредоточенный на том, как мутация нарушает окружающий контекст. Поскольку модель требует лишь последовательности, её можно применять к белкам, чьи 3D-структуры неизвестны или трудны для определения.

Встраивание физики в искусственный интеллект

Ключевая инновация JanusDDG — её конструкция, учитывающая фундаментальные физические принципы. Авторы сосредотачиваются на двух свойствах свободной энергии Гиббса, лежащей в основе устойчивости белков. Во‑первых, антисимметрия означает, что если переход от одного варианта к другому изменяет устойчивость на определённую величину, то обратный переход должен возвращать её в исходное состояние с противоположным знаком. Во‑вторых, транзитивность означает, что суммарный эффект перехода от первого варианта ко второму, а затем к третьему должен равняться прямому переходу от первого к третьему. Архитектура JanusDDG обеспечивает антисимметрию запуском двух зеркальных копий сети на переставленных входах и объединением их выходов так, чтобы предсказания «вперёд» и «назад» были точными противоположностями. Транзитивность поощряется в процессе обучения за счёт специального члена функции потерь, который заставляет модель давать согласованные предсказания при разбиении мутативных путей на шаги.

Тестирование на разных типах мутаций

Исследователи обучили JanusDDG на куратированной базе данных из тысяч мутаций с измеренными изменениями устойчивости и затем протестировали её на нескольких независимых бенчмарках, где пересечение последовательностей с обучающей выборкой было сведено к минимуму. Такой тщательный дизайн снижает риск того, что модель просто запоминает знакомые белки. На трёх широко используемых наборах одноточечных мутаций JanusDDG соответствовала или превосходила как другие методы, основанные на последовательностях, так и многие методы, опирающиеся на 3D‑структуры. Модель также справилась с несколькими одновременными мутациями — более сложным сценарием, где взаимодействия между изменениями могут быть неаддитивными. Примечательно, что её точность не снижалась для пар мутаций, близких в пространстве, где более ранние модели часто испытывали трудности.

От чисел к полезным меткам устойчивости

В практических задачах исследователям часто нужно знать не только величину изменения устойчивости, но и является ли мутация явно стабилизирующей или дестабилизирующей. Авторы проверили JanusDDG на наборе данных, ориентированном на различение стабилизирующих и дестабилизирующих вариантов. Хотя модель показала солидные результаты, эта задача оказалась сложнее, чем предсказание численных значений, особенно вблизи границы между категориями, где экспериментальный шум и биологическая неоднозначность наиболее выражены. Тем не менее JanusDDG показала конкурентоспособные результаты, что указывает на то, что её физически информированная архитектура и использование богатых эмбеддингов последовательностей помогают лучше справляться с этой неопределённостью, чем у многих конкурентов.

Что это значит для будущего проектирования белков

В целом JanusDDG демонстрирует, что возможно объединить силы современных последовательностных ИИ и строгих ограничений физики. Рассматривая белки как последовательности, которые можно «читать» подобно языку, и одновременно требуя, чтобы предсказания удовлетворяли антисимметрии и транзитивности, модель даёт оценки устойчивости, которые одновременно точны и термодинамически последовательны. Для неспециалистов вывод заключается в том, что мы приближаемся к надёжным инструментам без зависимости от структуры, которые способны просеивать бесчисленные возможные мутации, выделяя те, что, вероятнее всего, стабилизируют белок, или помечая рискованные изменения, связанные с болезнями — и всё это при соблюдении физических законов, а не простых статистических эвристик.

Цитирование: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9

Ключевые слова: устойчивость белков, генетические мутации, дизайн белков, машинное обучение, термодинамика