Clear Sky Science · pl
JanusDDG: sieć neuronowa uwzględniająca prawa fizyki do przewidywania stabilności białek na podstawie sekwencji za pomocą uwagi dwukierunkowej
Dlaczego te badania są ważne
Białka to mikroskopijne maszyny, które utrzymują komórki przy życiu, a nawet pojedyncza zmiana w ich budulcu może sprawić, że będą działać lepiej, gorzej lub wcale. Możliwość przewidywania, jak takie zmiany wpływają na stabilność białka, jest kluczowa dla zrozumienia chorób genetycznych oraz projektowania lepszych leków i enzymów przemysłowych. W artykule przedstawiono JanusDDG, nowy model sztucznej inteligencji, który przewiduje, jak mutacje zmieniają stabilność białka, używając jedynie sekwencji aminokwasów, przy jednoczesnym uwzględnieniu podstawowych zasad fizycznych rządzących fałdowaniem białek.
Problem kruchej maszyny białkowej
Kiedy białko układa się w trójwymiarową strukturę, równoważy wiele sił, niczym namiot podparty wieloma linami. Mutacje mogą naciągać niektóre liny lub je poluzować, czyniąc strukturę bardziej lub mniej stabilną. Testy eksperymentalne tych efektów są powolne i kosztowne, dlatego badacze w dużym stopniu polegają na modelach komputerowych do szacowania zmian stabilności, znanych jako ΔΔG. Istniejące narzędzia często działają najlepiej, gdy mają dostęp do szczegółowych struktur 3D, i mogą po cichu łamać zasady termodynamiki, prowadząc do wyników, które na papierze wyglądają dobrze, ale są fizycznie niespójne lub trudne do zaufania dla nowych białek.

Nowy sposób odczytywania sekwencji białek
JanusDDG podejmuje to wyzwanie, zaczynając od modeli języka białkowego — klasy dużych sieci neuronowych trenowanych na milionach sekwencji białkowych, podobnie jak modele językowe uczą się na tekście. Modele te zamieniają każdy aminokwas na bogatą reprezentację numeryczną, która uchwytuje wzorce wynikające z ewolucji i typowego zachowania przy fałdowaniu. JanusDDG bierze sekwencję białka wyjściowego i sekwencję mutanta, porównuje ich wyuczone reprezentacje i wykorzystuje wyspecjalizowany mechanizm uwagi, który koncentruje się na tym, jak mutacja zakłóca otaczający kontekst. Ponieważ potrzebuje jedynie sekwencji, JanusDDG może być stosowany do białek, których struktury 3D są nieznane lub trudne do ustalenia.
Wbudowanie zasad fizyki w sztuczną inteligencję
Kluczową innowacją JanusDDG jest projekt tak, aby respektował fundamentalne zasady fizyki. Autorzy skupiają się na dwóch własnościach energii swobodnej Gibbsa, wielkości leżącej u podstaw stabilności białek. Po pierwsze, antysymetria oznacza, że jeśli przejście z jednego wariantu do drugiego zmienia stabilność o określoną wartość, to zmiana odwrotna musi ten efekt cofnąć. Po drugie, przechodniość oznacza, że całkowity efekt przejścia z wariantu pierwszego do drugiego, a następnie do trzeciego, musi równać się bezpośredniemu skokowi z pierwszego do trzeciego. Architektura JanusDDG wymusza antysymetrię poprzez uruchamianie dwóch odbitych kopii sieci na zamienionych wejściach i łączenie ich wyjść tak, aby przewidywania w przód i w tył były dokładnymi przeciwnymi wartościami. Przechodniość jest wspierana podczas treningu przez dodanie specjalnego składnika funkcji strat, który naciska model, by dawał spójne przewidywania, gdy ścieżki mutacyjne są dzielone na kroki.

Testowanie wydajności na różnych typach mutacji
Badacze trenowali JanusDDG na starannie przygotowanym zbiorze danych obejmującym tysiące mutacji z zmierzonymi zmianami stabilności, a następnie testowali go na kilku niezależnych benchmarkach, gdzie nakładanie się sekwencji ze zbiorem treningowym było utrzymane na bardzo niskim poziomie. Takie ostrożne projektowanie zmniejsza ryzyko, że model po prostu zapamiętuje znane białka. W trzech powszechnie używanych kolekcjach pojedynczych mutacji JanusDDG dorównywał lub przewyższał zarówno inne narzędzia oparte na sekwencjach, jak i wiele metod wykorzystujących struktury 3D. Radził sobie również z wielokrotnymi jednoczesnymi mutacjami — trudniejszym scenariuszem, gdzie interakcje między zmianami mogą być nieaddytywne. Co warte odnotowania, jego dokładność nie spadała dla par mutacji położonych blisko siebie w przestrzeni, gdzie wcześniejsze modele często miały problemy.
Z liczb do użytecznych etykiet stabilności
W zastosowaniach praktycznych badacze często chcą wiedzieć nie tylko, jak duża jest zmiana stabilności, ale czy mutacja jednoznacznie stabilizuje czy destabilizuje białko. Autorzy przetestowali JanusDDG na zbiorze danych skoncentrowanym na rozróżnieniu wariantów stabilizujących i destabilizujących. Choć model osiągnął solidne wyniki, zadanie to pozostało trudniejsze niż przewidywanie surowych wartości liczbowych, szczególnie w pobliżu granicy między kategoriami, gdzie szum eksperymentalny i biologiczna niejednoznaczność są największe. Mimo to JanusDDG wypadał korzystnie w porównaniu z innymi najlepszymi metodami, co sugeruje, że jego świadomy względem fizyki projekt i użycie bogatych osadzeń sekwencji pomagają mu lepiej poruszać się w tej niepewności niż wielu rywalom.
Co to oznacza dla przyszłego projektowania białek
Podsumowując, JanusDDG pokazuje, że można połączyć zalety nowoczesnej, opartej na sekwencjach sztucznej inteligencji z twardymi ograniczeniami wynikającymi z praw fizyki. Traktując białka jako sekwencje, które można „czytać” jak język, a jednocześnie wymuszając, by przewidywania spełniały antysymetrię i przechodniość, model daje oszacowania stabilności, które są zarówno dokładne, jak i termodynamicznie spójne. Dla osób niebędących specjalistami wniosek jest taki, że zbliżamy się do wiarygodnych narzędzi wolnych od wymogu struktury, które potrafią przeszukiwać niezliczone możliwe mutacje, wskazując te najbardziej prawdopodobne do stabilizacji białka lub sygnalizując ryzykowne zmiany związane z chorobami — i to wszystko z poszanowaniem zasad fizyki, a nie jedynie statystycznych skrótów.
Cytowanie: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9
Słowa kluczowe: stabilność białek, mutacje genetyczne, projektowanie białek, uczenie maszynowe, termodynamika