Clear Sky Science · pl
Retentive Network promuje wydajne modelowanie języka RNA dla długich sekwencji
Nauczanie komputerów czytania wiadomości RNA życia
Każda komórka w twoim ciele jest wypełniona RNA, cząsteczką, która pomaga przekształcać instrukcje genetyczne w żywą materię. Jednak współcześni biolodzy stoją w obliczu zalewu danych RNA, których żaden człowiek nie jest w stanie przeczytać linia po linii. W tym artykule przedstawiono RNAret, kompaktowy model sztucznej inteligencji, który „czyta” sekwencje RNA podobnie jak język i potrafi przetwarzać niezwykle długie fragmenty tekstu genetycznego. Jego celem jest odkrywanie ukrytych wzorców, które ujawniają, jak RNA się fałduje, wchodzi w interakcje i rozróżnia działające instrukcje od szumu tła — przy znacznie niższym zapotrzebowaniu na moc obliczeniową niż obecne narzędzia.
Nowy sposób dostrzegania wzorców w RNA
RNAret opiera się na rozwijanym projekcie AI zwanym Retentive Network, zaproponowanym pierwotnie jako następca Transformerów — silników stojących za dużymi modelami językowymi dla tekstu ludzkiego. Zamiast porównywać każdą pozycję w sekwencji z każdą inną — krok, który staje się bardzo kosztowny dla długich łańcuchów — podejście retencyjne pozwala modelowi „zapamiętywać” istotne informacje w miarę przesuwania się wzdłuż sekwencji, przy koszcie rosnącym proporcjonalnie tylko do długości sekwencji. Autorzy zaadaptowali ten pomysł do enkodera, który patrzy w obu kierunkach wzdłuż RNA, tworząc lekki model o około 12 milionach parametrów, który nadal może przetwarzać tysiące liter RNA jednocześnie na standardowym GPU badawczym.

Uczenie się na milionach nieoznakowanych sekwencji RNA
Aby nauczyć RNAret „gramatyki” RNA, zespół przeszkolił go na prawie 30 milionach sekwencji RNA niekodujących z bazy RNAcentral, nie dostarczając żadnych etykiet dotyczących typu czy funkcji RNA. Użyli strategii zaczerpniętej z modelowania języka: ukrywać małe fragmenty sekwencji i prosić model o odgadnięcie brakujących części. W ciągu 600 000 kroków treningowych RNAret stale uczył się przewidywać te zamaskowane segmenty, co wskazywało, że wychwytuje regularności w rozmieszczeniu zasad. Kiedy badacze później przyjrzeli się wewnętrznym reprezentacjom generowanym przez model, stwierdzili, że RNA o podobnych rolach i długościach naturalnie grupuje się razem w przestrzeni o niskim wymiarze, mimo że model nigdy nie został poinformowany, które sekwencje należą do których kategorii.
Wykorzystanie modelu do rzeczywistych pytań biologicznych
Następnie autorzy sprawdzili, czy wyuczone wzorce RNA pomagają rozwiązywać praktyczne problemy. Najpierw RNAret został dostrojony do oceny, czy krótki regulatorowy RNA zwany mikroRNA może związać się z regionem docelowym na dłuższym RNA. Na standardowym benchmarku ponad 27 000 par mikroRNA–mRNA wersja RNAret czytająca pięcioliterowe fragmenty sekwencji przewyższyła kilka większych modeli języka RNA oraz wyspecjalizowane narzędzie głębokiego uczenia, osiągając wysoką dokładność i miary F1. Gdy badacze zbadali wewnętrzne „wyniki retencji” modelu, zauważyli, że naturalnie skupia się on na regionie „seed” mikroRNA — kluczowym fragmencie znanym z eksperymentów jako determinujący wiązanie — oraz na dopasowanym odcinku na RNA celu, co wskazuje, że decyzje modelu opierają się na rzeczywistej biologii, a nie na fałszywych skrótach.

Odtwarzanie kształtów i rozróżnianie typów RNA
Dalej zespół postawił RNAret wyzwanie przewidzenia, jak pojedyncze nici RNA składają się w struktury drugorzędowe. Korzystając z oczyszczonych zestawów benchmarkowych, najprostsza wersja RNAret (czytająca jedną zasadę na raz) wygenerowała mapy kontaktów par zasad, które często były bliższe eksperymentalnie znanym strukturom niż popularne narzędzia oparte na głębokim uczeniu i termodynamice, zwłaszcza dla RNA o umiarkowanej długości. Wyjścia modelu, połączone z etapem post-processingu wymuszającym zasady fizyczne dotyczące tego, które zasady mogą się parować, dawały czystsze, mniej zaszumione przewidywania. W trzecim teście RNAret nauczył się odróżniać RNA kodujące białka od długich RNA niekodujących w genomach człowieka i myszy. Dzięki możliwości przetwarzania pełnych transkryptów bez dzielenia ich na fragmenty dobrze radził sobie z sekwencjami częściowymi i długimi, przewyższając klasyczne metody oparte na otwartych ramkach odczytu i większość konkurencyjnych modeli języka RNA, szczególnie na dużym zestawie ludzkim.
Szybki, wydajny i gotowy do rozwoju
Ponad samą dokładność, RNAret został zaprojektowany z myślą o szybkości. Dzięki architekturze opartej na retencji model przetwarza rzędy stu tysięcy jednostek RNA na sekundę podczas wstępnego treningu na jednym wysokiej klasy GPU i pozostaje wydajny nawet po dostrojeniu do przewidywania struktur czy klasyfikacji. Pomimo znacznie mniejszych rozmiarów niż wiele niedawnych modeli językowych biologii, osiąga stanowiące najlepsze wyniki lub wyniki bliskie najlepszym w różnych zadaniach. Autorzy widzą w tym dowód koncepcji, że Retentive Networks mogą służyć jako praktyczne, interpretowalne silniki analizy sekwencji biologicznych. Przy dalszym dopracowaniu i rozszerzeniach na DNA i białka, RNAret i pokrewne modele mogą stać się codziennymi narzędziami do przekształcania surowych danych sekwencyjnych w wgląd w to, jak cząsteczki wchodzą w interakcje, fałdują się i realizują instrukcje życia.
Cytowanie: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x
Słowa kluczowe: model języka RNA, Retentive Network, predykcja struktury RNA, interakcje mikroRNA, długie RNA niekodujące