Clear Sky Science · pl

Od pojedynczych sekwencji do trajektorii ewolucyjnych: modele języka białkowego uchwytują potencjał ewolucyjny SARS‑CoV‑2

· Powrót do spisu

Dlaczego to ma znaczenie dla przyszłych pandemii

Przez większość pandemii COVID‑19 naukowcy reagowali z opóźnieniem: nowe warianty pojawiały się w przyrodzie zanim laboratoria zmierzyły, co te zmiany oznaczają dla zakaźności czy ucieczki przed odpornością. Badanie pokazuje, że potężne modele komputerowe, pierwotnie stworzone do rozumienia języka ludzkiego, potrafią czytać „język” białek i wnioskować, jak białko kolca koronawirusa może się zmieniać i adaptować — używając tylko sekwencji jego jednostek budulcowych. Taka zdolność mogłaby pomóc naukowcom wcześniej wykrywać niepokojące warianty i może być uogólniona na wiele innych patogenów.

Uczenie komputerów czytania białek

Autorzy pracują z modelem języka białkowego o nazwie ESM‑2, wytrenowanym na dziesiątkach milionów sekwencji białkowych z całego drzewa życia. Podobnie jak model językowy uczy się gramatyki i znaczeń słów, ESM‑2 uczy się, które wzorce aminokwasowe „mają sens” w prawdziwych białkach. Gdy podaje się modelowi sekwencję kolca SARS‑CoV‑2, przypisuje on każdej możliwej mutacji dwa kluczowe wyniki: ocenę gramatyczności, odzwierciedlającą, jak dobrze zmieniona sekwencja pasuje do nauczonych reguł struktury białka, oraz ocenę semantyczności, mierzącą, jak bardzo zmienia się całe białko w wewnętrznej reprezentacji modelu. Te oceny można obliczyć dla każdej możliwej pojedynczej mutacji na komputerze — strategia znana jako in silico deep mutational scanning.

Figure 1
Figure 1.

Mapowanie, gdzie wirus może, a gdzie nie może się zmieniać

Skanując wszystkie pojedyncze zmiany literowe w kolcu, zespół odkrył, że ESM‑2 naturalnie odtwarza główne cechy architektoniczne białka. Część S2, która tworzy stabilny trzon napędzający fuzję z błoną, jest przewidywana jako silnie ograniczona: większość mutacji tam znacząco obniża gramatyczność, co sugeruje, że uszkodziłyby strukturę lub funkcję białka. W przeciwieństwie do tego, rejony na zewnętrznej powierzchni części S1, w tym domena N‑końcowa oraz domena wiążąca receptor, tolerują znacznie więcej zmian. Zgodne jest to z obserwacjami w rzeczywistych genomach wirusa, gdzie te odsłonięte regiony gromadzą mutacje pomagające wirusowi przyczepiać się do komórek i unikać przeciwciał, podczas gdy rdzeń strukturalny pozostaje bardziej zachowany.

Odkrywanie ukrytej współpracy między mutacjami

Białka to nie zestaw niezależnych miejsc; jedna mutacja może zmienić, jak akceptowalne są inne — zjawisko zwane epistazą. Badacze zbadali to, zaczynając od kolca Omikron BA.1 i obliczeniowo „przywracając” jego charakterystyczne mutacje pojedynczo z powrotem do oryginalnej sekwencji z Wuhan. Każde takie przywrócenie zmienia prawdopodobieństwa modelu dla aminokwasów na wszystkich pozostałych pozycjach. Duże przesunięcia ujawniają pary miejsc, których losy są powiązane. Dzięki temu podejściu badanie podkreśla znane gorące punkty, takie jak pozycje wokół 484 i 501 w domenie wiążącej receptor, które razem kształtują zarówno ucieczkę przed układem odpornościowym, jak i wiązanie z receptorem ACE2. Wskazuje też na mniej oczywiste skupiska reszt, których interakcje później potwierdzono w badaniach eksperymentalnych dotyczących zwiększonego wzrostu Omikrona w ludzkich komórkach nosa, sugerując, że model uchwytuje prawdziwe powiązania strukturalne i funkcjonalne.

Figure 2
Figure 2.

Śledzenie ewolucji wirusa i wykrywanie odchyleń

Ponad pojedyncze mutacje, autorzy pytają, czy ESM‑2 potrafi zinterpretować całe sekwencje wariantów, jakie pojawiały się w czasie. Osadzają po jednej sekwencji kolca dla każdej nazwanej linii SARS‑CoV‑2 i umieszczają je na dwuwymiarowej mapie, używając podejścia nazwanego evo‑velocity, które także wyznacza dominujący kierunek zmian. Otrzymane rozmieszczenie odzwierciedla znane drzewo filogenetyczne: wczesne linie klasterują razem, potem odchodzą gałęzie odpowiadające Alfa, Delta, Omikronowi i liniom rekombinowanym we właściwej kolejności czasowej. Proste statystyki podsumowujące, takie jak średnia gramatyczność i odległość semantyczna, wyraźnie rozdzielają linie niebędące wariantami, wczesne warianty budzące niepokój oraz wirusy klasy Omikron, pokazując, że wewnętrzna reprezentacja modelu śledzi sensowne przesunięcia ewolucyjne.

Przekształcanie osadzeń w system wczesnego ostrzegania

Aby zbadać zastosowania w nadzorze, zespół wprowadza dynamiczny wynik semantyczny: każdą nową sekwencję kolca porównuje się nie tylko z oryginalnym szczepem z Wuhan, lecz także ze średnią wirusów krążących w poprzednich trzech miesiącach. Zastosowany do gęstych danych sekwencjonowania z Wielkiej Brytanii, ten ruchomy wynik generuje wyraźne fale w miarę wzrostu i spadku Alfa, Delta oraz kolejnych podlinii Omikrona. Sekwencje oddalone o jedną lub dwie odchylenia standardowe od bieżącej średniej są oznaczane jako potencjalne sekwencje budzące niepokój. Używając tylko tych wczesnych odchyleń, metoda wyróżniłaby większość wariantów budzących niepokój według WHO oraz kilka ważnych późniejszych odgałęzień, takich jak JN.1, jednocześnie ujawniając które konkretne miejsca w białku kolca są wielokrotnie modyfikowane w pojawiających się liniach.

Co to oznacza dla przyszłych zagrożeń

Podsumowując, badanie pokazuje, że ogólnego przeznaczenia model języka białkowego, użyty bez specjalistycznych modyfikacji, może wskazać, które części białka kolca SARS‑CoV‑2 są elastyczne, które miejsca są strukturalnie krytyczne, jak mutacje współdziałają oraz jak kolcowa struktura wirusa przemieszczała się w przestrzeni ewolucyjnej w trakcie pandemii. Ponieważ metoda działa na podstawie pojedynczej sekwencji białkowej i nie wymaga wcześniej przygotowanych wyrównań ani szczegółowych danych strukturalnych, może zostać zastosowana bardzo wcześnie w wybuchu epidemii, gdy znanych jest tylko kilka genomów. W miarę jak podobne modele będą udoskonalane i dopasowywane do zbiorów danych wirusowych, mogą stać się ważnym elementem zestawu narzędzi do prognozowania, jak nowe patogeny się zmieniają, oraz do priorytetyzacji wariantów do badań laboratoryjnych i projektowania szczepionek.

Cytowanie: Lamb, K.D., Hughes, J., Lytras, S. et al. From single-sequences to evolutionary trajectories: protein language models capture the evolutionary potential of SARS-CoV-2. Nat Commun 17, 2938 (2026). https://doi.org/10.1038/s41467-026-69569-9

Słowa kluczowe: modele języka białkowego, kolce SARS‑CoV‑2, ewolucja wirusów, epistaza, monitorowanie wariantów