Clear Sky Science · de

Retentive Network fördert effizientes RNA-Sprachmodellieren langer Sequenzen

· Zurück zur Übersicht

Computern beibringen, die RNA-Nachrichten des Lebens zu lesen

Jede Zelle in Ihrem Körper ist voller RNA, des Moleküls, das hilft, genetische Anweisungen in lebende Materie zu übersetzen. Heute stehen Biologinnen und Biologen allerdings vor einer Flut von RNA-Daten, die kein Mensch Zeile für Zeile lesen kann. Diese Arbeit stellt RNAret vor, ein kompaktes KI-Modell, das RNA-Sequenzen ähnlich wie Sprache „liest“ und extrem lange Abschnitte genetischen Textes verarbeiten kann. Ziel ist es, versteckte Muster aufzudecken, die zeigen, wie RNAs falten, interagieren und funktionale Baupläne vom Hintergrundrauschen unterscheiden — und das bei deutlich geringerem Rechenaufwand als aktuelle Werkzeuge.

Ein neuer Blick auf Muster in RNA

RNAret basiert auf einem aufkommenden KI-Design namens Retentive Network, das ursprünglich als Nachfolger der Transformer vorgeschlagen wurde — der Technik hinter großen Sprachmodellen für menschlichen Text. Anstatt jede Position in einer Sequenz mit jeder anderen zu vergleichen — ein Schritt, der bei langen Strings sehr teuer wird — erlaubt der Retentive-Ansatz dem Modell, wichtige Informationen beim Voranschreiten „zu behalten“, wobei die Kosten nur proportional zur Sequenzlänge wachsen. Die Autorinnen und Autoren passen diese Idee zu einem Encoder an, der in beide Richtungen entlang der RNA schaut, und schaffen so ein leichtgewichtiges Modell mit etwa 12 Millionen Parametern, das dennoch tausende RNA-Buchstaben auf einer Standard-Forschungs-GPU gleichzeitig verarbeiten kann.

Figure 1
Figure 1.

Aus Millionen unlabeled RNA-Sequenzen lernen

Um RNAret die „Grammatik“ der RNA beizubringen, trainierte das Team es mit fast 30 Millionen nichtkodierenden RNA-Sequenzen aus der RNAcentral-Datenbank, ohne Labels zu Typ oder Funktion bereitzustellen. Sie verwendeten eine Strategie aus dem Sprachmodellieren: kleine Abschnitte der Sequenz verbergen und das Modell bitten, die fehlenden Stücke zu erraten. Über 600.000 Trainingsschritte lernte RNAret kontinuierlich, diese maskierten Segmente vorherzusagen, was darauf hindeutet, dass es Regelmäßigkeiten in der Anordnung der Basen erfasst. Als die Forschenden später die internen Repräsentationen des Modells untersuchten, fanden sie, dass RNAs mit ähnlichen Rollen und Längen in niedrigdimensionalen Räumen natürlich zusammenklusterten, obwohl das Modell niemals gesagt bekam, welche Sequenzen zu welcher Kategorie gehören.

Das Modell für echte biologische Fragestellungen einsetzen

Die Autorinnen und Autoren prüften dann, ob diese gelernten RNA-Muster praktische Probleme lösen helfen. Zunächst wurde RNAret feinjustiert, um zu beurteilen, ob eine kurze regulatorische RNA, eine microRNA, an eine Zielregion auf einer längeren RNA binden kann. Auf einem Standard-Benchmark mit über 27.000 microRNA–mRNA-Paaren übertraf die Version von RNAret, die fünfstellige Sequenzabschnitte liest, mehrere größere RNA-Sprachmodelle und ein spezialisiertes Deep-Learning-Werkzeug und erreichte hohe Genauigkeit und F1-Werte. Bei der Inspektion der internen „Retention Scores“ des Modells sahen die Forschenden, dass es sich natürlicherweise auf die microRNA-„Seed“-Region — den bekannten, bindungsbestimmenden Abschnitt — und den passenden Abschnitt auf der Ziel-RNA konzentrierte, was darauf hindeutet, dass die Modellentscheidungen auf realer Biologie und nicht auf zufälligen Abkürzungen beruhten.

Figure 2
Figure 2.

Formen rekonstruieren und RNA-Typen sortieren

Als Nächstes forderte das Team RNAret heraus, vorherzusagen, wie einzelne RNA-Stränge sich zu Sekundärstrukturen zurückfalten. Unter Verwendung bereinigter Benchmark-Datensätze erzeugte die einfachste Version von RNAret (eine Base pro Schritt lesend) Kontaktkarten von Basenpaaren, die oft näher an den experimentell bekannten Strukturen lagen als beliebte Deep-Learning- und thermodynamische Werkzeuge, insbesondere für RNAs mittlerer Länge. Die Ausgaben des Modells, kombiniert mit einem Nachbearbeitungsschritt, der physikalische Regeln darüber durchsetzt, welche Basen paaren können, ergaben sauberere, weniger verrauschte Vorhersagen. In einem dritten Test lernte RNAret, protein-kodierende RNAs von langen nichtkodierenden RNAs in Mensch- und Maus-Genomen zu unterscheiden. Da es komplette Transkripte ohne Zerschneidung verarbeiten kann, handhabte es auch partielle und lange Sequenzen gut und übertraf klassische Open-Reading-Frame-Methoden und die meisten konkurrierenden RNA-Sprachmodelle, insbesondere im großen humanen Datensatz.

Schnell, effizient und bereit zu wachsen

Jenseits der Genauigkeit wurde RNAret für Schnelligkeit konzipiert. Dank seiner retention-basierten Architektur verarbeitet das Modell während des Pretrainings auf einer einzelnen Hochleistungs-GPU Größenordnungen von etwa hunderttausend RNA-Einheiten pro Sekunde und bleibt auch bei Feinabstimmung für Strukturvorhersage oder Klassifikation effizient. Obwohl es deutlich kleiner ist als viele neuere biologische Sprachmodelle, erreicht es auf vielfältigen Aufgaben state-of-the-art- oder nahe-state-of-the-art-Leistungen. Die Autorinnen und Autoren sehen dies als Machbarkeitsnachweis, dass Retentive Networks als praktische, interpretierbare Motoren für die Analyse biologischer Sequenzen dienen können. Mit weiterer Abstimmung und Erweiterungen auf DNA und Proteine könnten RNAret und verwandte Modelle alltägliche Werkzeuge werden, um rohe Sequenzdaten in Einsichten darüber zu verwandeln, wie Moleküle interagieren, falten und die Anweisungen des Lebens ausführen.

Zitation: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x

Schlüsselwörter: RNA-Sprachmodell, Retentive Network, RNA-Strukturvorhersage, microRNA-Interaktionen, lange nichtkodierende RNA