Clear Sky Science · ru
От одиночных последовательностей к эволюционным траекториям: языковые модели белков фиксируют эволюционный потенциал SARS-CoV-2
Почему это важно для будущих пандемий
В течение большей части пандемии COVID‑19 учёные действовали на опережение: новые варианты появлялись в реальном мире раньше, чем лаборатории успевали измерить, что эти изменения означают для заразности или обхода иммунитета. В этом исследовании показано, что мощные компьютерные модели, изначально созданные для понимания человеческого языка, можно перенастроить на «чтение» языка белков и предсказывать, как белок спайк коронавируса, вероятно, будет меняться и адаптироваться — используя только его последовательность строительных блоков. Такая способность может помочь исследователям раньше выявлять опасные варианты и, вероятно, обобщаться на многие другие патогены.
Обучение компьютеров «читать» белки
Авторы работают с языковой моделью белков под названием ESM‑2, обученной на десятках миллионов белковых последовательностей со всего древа жизни. Подобно тому как языковая модель усваивает грамматику и смысл слов, ESM‑2 учится тому, какие закономерности аминокислот «имеют смысл» в реальных белках. Получив последовательность спайк‑белка SARS‑CoV‑2, модель присваивает каждой возможной мутации два ключевых показателя: показатель «грамматичности», отражающий, насколько изменённая последовательность соответствует выученным правилам структуры белка, и семантический показатель, оценивающий, насколько сильно изменяется общее представление о белке во внутреннем пространстве модели. Эти оценки можно вычислить для каждой возможной одиночной мутации на компьютере — стратегия, известная как in silico глубокое мутационное сканирование. 
Картирование того, где вирус может и не может изменяться
Сканируя все однобуквенные изменения по всему спайку, команда обнаружила, что ESM‑2 естественно воспроизводит основные архитектурные особенности белка. Участок S2, образующий стабильную «ножку», обеспечивающую слияние мембран, предсказывается как сильно ограниченный: большинство мутаций там резко снижают грамматичность, что подразумевает повреждение структуры или функции белка. Напротив, участки на внешней поверхности S1, включая N‑терминальный домен и домен, связывающий рецептор, допускают намного больше изменений. Это соответствует наблюдениям в реальных вирусных геномах, где эти экспонированные участки аккумулируют мутации, помогающие вирусу прикрепляться к клеткам и уклоняться от антител, в то время как структурное ядро остаётся более консервативным.
Выявление скрытого взаимодействия между мутациями
Белки — это не просто набор независимых сайтов; одна мутация может изменить приемлемость других, феномен, называемый эпистазом. Исследователи изучали это, начиная со спайка Omicron BA.1 и вычислительно «отворачивая» его определяющие мутации по одной обратно к исходной вахановской последовательности. Каждое такое восстановление изменяет условные вероятности аминокислот для всех остальных позиций в модели. Крупные сдвиги выявляют пары сайтов, чьи судьбы взаимосвязаны. С помощью этого подхода в работе выделяются известные горячие точки, такие как позиции вокруг 484 и 501 в домене связывания рецептора, которые совместно влияют и на уклонение от иммунитета, и на связывание с рецептором ACE2. Также отмечаются менее очевидные кластеры остатков, чьи взаимодействия затем подтвердились в экспериментальных исследованиях усиленного роста Omicron в клетках человеческого носа, что указывает на то, что модель захватывает подлинные структурные и функциональные связи. 
Прослеживание эволюции вируса и выявление выбросов
Помимо одиночных мутаций, авторы проверили, может ли ESM‑2 осмысленно интерпретировать целые последовательности вариантов по мере их появления во времени. Они встраивают одну последовательность спайка для каждой именованной линии SARS‑CoV‑2 и размещают их на двумерной карте с помощью подхода, называемого evo‑velocity, который также выводит доминирующее направление изменений. Полученная схема отражает известное филогенетическое дерево: ранние линии группируются вместе, затем ветви, соответствующие Alpha, Delta, Omicron и рекомбинантным линиям, отделяются в правильном временном порядке. Простые сводные статистики, такие как средняя грамматичность и семантическое расстояние, чётко отделяют неповторяющиеся линии, ранние варианты, вызывающие опасение, и вирусы класса Omicron, показывая, что внутреннее представление модели отслеживает значимые эволюционные сдвиги.
Преобразование встраиваний в систему раннего предупреждения
Чтобы исследовать практическую ценность для наблюдения, команда вводит динамический семантический показатель: каждая новая последовательность спайка сравнивается не только с исходным вахановским штаммом, но и со средним значением вирусов, циркулировавших за предыдущие три месяца. Применённый к плотным данным секвенирования из Великобритании, этот скользящий показатель производит чёткие волны по мере подъёма и спада Alpha, Delta и последующих сублиний Omicron. Последовательности, отклоняющиеся на одну или две стандартные ошибки от текущего среднего, помечаются как потенциально тревожные. Используя только эти ранние выбросы, метод смог бы выделить большинство вариантов, вызывавших беспокойство по версии ВОЗ, и несколько важных поздних ответвлений, таких как JN.1, одновременно указывая на конкретные позиции в белке спайк, которые неоднократно изменялись в появляющихся линиях.
Что это значит для будущих угроз
В целом исследование показывает, что универсальная языковая модель белков, использованная прямо «из коробки», может выявлять, какие части спайк‑белка SARS‑CoV‑2 гибки, какие сайты структурно критичны, как мутации взаимодействуют между собой и как спайк вируса перемещался в эволюционном пространстве в ходе пандемии. Поскольку метод работает от одиночной последовательности белка и не зависит от заранее подготовленных выравниваний или детальных структурных данных, его можно применить очень рано в начале вспышки, когда известно лишь несколько геномов. По мере того как подобные модели будут дорабатываться и настраиваться на вирусные наборы данных, они могут стать важной частью инструментов для прогнозирования эволюции новых патогенов и приоритизации вариантов для лабораторных исследований и разработки вакцин.
Цитирование: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9
Ключевые слова: языковые модели белков, спайк SARS-CoV-2, вирусная эволюция, эпистаз, мониторинг вариантов