Clear Sky Science · ru

JanusDDG: нейросеть с физическим учетом для предсказания устойчивости белков по последовательности с помощью двустороннего внимания

· Назад к списку

Почему это исследование важно

Белки — это крошечные машины, поддерживающие жизнь клетки, и даже одна замена в их строительных блоках может сделать их работу лучше, хуже или вовсе невозможной. Умение предсказывать, как такие изменения влияют на устойчивость белка, имеет ключевое значение для понимания наследственных заболеваний и для проектирования более эффективных лекарств и промышленных ферментов. В этой статье представлена JanusDDG — новая модель искусственного интеллекта, которая предсказывает, как мутации изменяют устойчивость белка, опираясь только на последовательность аминокислот и одновременно соблюдая базовые физические законы, управляющие сворачиванием белков.

Проблема хрупких белковых машин

Когда белок сворачивается в свою трёхмерную форму, он удерживается множеством взаимодействий, подобно палатке, натянутой множеством верёвок. Мутации могут натянуть одни «верёвки» и ослабить другие, делая структуру более или менее устойчивой. Экспериментальные проверки таких эффектов медленны и дороги, поэтому исследователи широко используют компьютерные модели для оценки изменений устойчивости, обозначаемых как ΔΔG. Существующие инструменты часто работают лучше при наличии детальной 3D-структуры и могут тихо нарушать законы термодинамики, что приводит к предсказаниям, выглядящим корректно на бумаге, но физически непоследовательным или ненадёжным для новых белков.

Figure 1
Figure 1.

Новый способ чтения белковых последовательностей

JanusDDG решает эту задачу, начиная с языковых моделей для белков — класса больших нейросетей, обученных на миллионах белковых последовательностей, аналогично тому, как языковые модели учатся на тексте. Эти модели переводят каждую аминокислоту в богатое числовое представление, улавливающее эволюционные закономерности и типичное поведение при сворачивании. JanusDDG принимает последовательности исходного белка и его мутанта, сравнивает их представления и использует специальный механизм внимания, сосредоточенный на том, как мутация нарушает окружающий контекст. Поскольку модель требует лишь последовательности, её можно применять к белкам, чьи 3D-структуры неизвестны или трудны для определения.

Встраивание физики в искусственный интеллект

Ключевая инновация JanusDDG — её конструкция, учитывающая фундаментальные физические принципы. Авторы сосредотачиваются на двух свойствах свободной энергии Гиббса, лежащей в основе устойчивости белков. Во‑первых, антисимметрия означает, что если переход от одного варианта к другому изменяет устойчивость на определённую величину, то обратный переход должен возвращать её в исходное состояние с противоположным знаком. Во‑вторых, транзитивность означает, что суммарный эффект перехода от первого варианта ко второму, а затем к третьему должен равняться прямому переходу от первого к третьему. Архитектура JanusDDG обеспечивает антисимметрию запуском двух зеркальных копий сети на переставленных входах и объединением их выходов так, чтобы предсказания «вперёд» и «назад» были точными противоположностями. Транзитивность поощряется в процессе обучения за счёт специального члена функции потерь, который заставляет модель давать согласованные предсказания при разбиении мутативных путей на шаги.

Figure 2
Figure 2.

Тестирование на разных типах мутаций

Исследователи обучили JanusDDG на куратированной базе данных из тысяч мутаций с измеренными изменениями устойчивости и затем протестировали её на нескольких независимых бенчмарках, где пересечение последовательностей с обучающей выборкой было сведено к минимуму. Такой тщательный дизайн снижает риск того, что модель просто запоминает знакомые белки. На трёх широко используемых наборах одноточечных мутаций JanusDDG соответствовала или превосходила как другие методы, основанные на последовательностях, так и многие методы, опирающиеся на 3D‑структуры. Модель также справилась с несколькими одновременными мутациями — более сложным сценарием, где взаимодействия между изменениями могут быть неаддитивными. Примечательно, что её точность не снижалась для пар мутаций, близких в пространстве, где более ранние модели часто испытывали трудности.

От чисел к полезным меткам устойчивости

В практических задачах исследователям часто нужно знать не только величину изменения устойчивости, но и является ли мутация явно стабилизирующей или дестабилизирующей. Авторы проверили JanusDDG на наборе данных, ориентированном на различение стабилизирующих и дестабилизирующих вариантов. Хотя модель показала солидные результаты, эта задача оказалась сложнее, чем предсказание численных значений, особенно вблизи границы между категориями, где экспериментальный шум и биологическая неоднозначность наиболее выражены. Тем не менее JanusDDG показала конкурентоспособные результаты, что указывает на то, что её физически информированная архитектура и использование богатых эмбеддингов последовательностей помогают лучше справляться с этой неопределённостью, чем у многих конкурентов.

Что это значит для будущего проектирования белков

В целом JanusDDG демонстрирует, что возможно объединить силы современных последовательностных ИИ и строгих ограничений физики. Рассматривая белки как последовательности, которые можно «читать» подобно языку, и одновременно требуя, чтобы предсказания удовлетворяли антисимметрии и транзитивности, модель даёт оценки устойчивости, которые одновременно точны и термодинамически последовательны. Для неспециалистов вывод заключается в том, что мы приближаемся к надёжным инструментам без зависимости от структуры, которые способны просеивать бесчисленные возможные мутации, выделяя те, что, вероятнее всего, стабилизируют белок, или помечая рискованные изменения, связанные с болезнями — и всё это при соблюдении физических законов, а не простых статистических эвристик.

Цитирование: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9

Ключевые слова: устойчивость белков, генетические мутации, дизайн белков, машинное обучение, термодинамика