Clear Sky Science · it

Retentive Network favorisce un modellamento efficiente del linguaggio per RNA su sequenze lunghe

· Torna all'indice

Insegnare ai computer a leggere i messaggi dell'RNA

Ogni cellula del tuo corpo è piena di RNA, la molecola che aiuta a trasformare le istruzioni genetiche in materia vivente. Ma i biologi di oggi affrontano un flusso di dati sull'RNA che nessun essere umano può leggere riga per riga. Questo articolo presenta RNAret, un modello di intelligenza artificiale compatto che “legge” le sequenze di RNA molto come un linguaggio e può gestire tratti estremamente lunghi di testo genetico. Il suo obiettivo è scoprire pattern nascosti che rivelano come gli RNA si ripiegano, interagiscono e distinguono progetti funzionali dal rumore di fondo — il tutto utilizzando molta meno potenza di calcolo rispetto agli strumenti attuali.

Un nuovo modo di vedere i pattern nell'RNA

RNAret è costruito su un design emergente dell'IA chiamato Retentive Network, proposto originariamente come successore dei Transformer, i motori alla base dei grandi modelli di linguaggio per testo umano. Invece di confrontare ogni posizione di una sequenza con tutte le altre — un’operazione che diventa molto costosa per stringhe lunghe — l'approccio Retentive permette al modello di “trattenere” informazioni importanti mentre avanza, con un costo che cresce proporzionalmente alla lunghezza della sequenza. Gli autori adattano questa idea in un encoder che guarda in entrambe le direzioni lungo l'RNA, creando un modello leggero di circa 12 milioni di parametri che può comunque processare migliaia di basi di RNA contemporaneamente su una GPU di ricerca standard.

Figure 1
Figure 1.

Apprendere da milioni di sequenze di RNA non annotate

Per insegnare a RNAret la “grammatica” dell'RNA, il gruppo lo ha addestrato su quasi 30 milioni di sequenze di RNA non codificante tratte dal database RNAcentral, senza fornire etichette sul tipo o sulla funzione degli RNA. Hanno usato una strategia mutuata dal language modeling: nascondere piccoli tratti della sequenza e chiedere al modello di indovinare le parti mancanti. In oltre 600.000 passi di addestramento, RNAret ha imparato progressivamente a prevedere questi segmenti mascherati, indicando che catturava regolarità nell'ordine delle basi. Quando i ricercatori hanno poi esaminato le rappresentazioni interne prodotte dal modello, hanno scoperto che gli RNA con ruoli e lunghezze simili si raggruppavano naturalmente in spazi a bassa dimensionalità, nonostante il modello non fosse mai stato informato su quali sequenze appartenessero a quale categoria.

Mettere il modello al servizio di domande biologiche reali

Gli autori hanno quindi testato se questi pattern appresi aiutassero a risolvere problemi pratici. Innanzitutto, RNAret è stato fine-tuned per valutare se un breve RNA regolatorio chiamato microRNA può legarsi a una regione bersaglio su una molecola di RNA più lunga. Su un benchmark standard di oltre 27.000 coppie microRNA–mRNA, la versione di RNAret che legge blocchi di cinque basi ha superato diversi modelli linguistici per RNA più grandi e uno strumento di deep learning specializzato, raggiungendo elevata accuratezza e punteggi F1. Quando i ricercatori hanno ispezionato i “punteggi di retention” interni al modello, hanno osservato che esso si concentrava naturalmente sulla regione “seed” del microRNA — il tratto chiave noto dagli esperimenti per guidare il legame — e sulla sezione corrispondente nell'RNA bersaglio, indicando che le decisioni del modello si basavano su biologia reale e non su scorciatoie spurie.

Figure 2
Figure 2.

Ricostruire forme e classificare i tipi di RNA

Successivamente, il team ha sfidato RNAret a prevedere come filamenti singoli di RNA si ripieghino su se stessi in strutture secondarie. Utilizzando dataset di benchmark puliti, la versione più semplice di RNAret (che legge una base alla volta) ha prodotto mappe di contatto delle coppie di basi spesso più vicine alle strutture sperimentalmente note rispetto a popolari strumenti di deep learning e termodinamici, soprattutto per RNA di lunghezza moderata. Le uscite del modello, combinate con un passaggio di post-processing che impone regole fisiche su quali basi possono appaiarsi, hanno prodotto previsioni più nette e meno rumorose. In un terzo test, RNAret ha imparato a distinguere RNA codificanti proteine da RNA non codificanti lunghi nei genomi umano e murino. Poiché può processare trascritti a lunghezza intera senza spezzarli, ha gestito bene sequenze parziali e lunghe, superando i metodi classici basati sull'open reading frame e la maggior parte dei modelli concorrenti per il linguaggio dell'RNA, in particolare sul grande dataset umano.

Veloce, efficiente e pronto a crescere

Oltre all'accuratezza, RNAret è stato progettato per essere veloce. Grazie alla sua architettura basata sulla retention, il modello processa dell'ordine di centinaia di migliaia di unità di RNA al secondo durante il pretraining su una singola GPU di fascia alta, e rimane efficiente anche quando viene fine-tuned per la predizione di strutture o per la classificazione. Nonostante sia molto più piccolo di molti recenti modelli biologici di linguaggio, raggiunge prestazioni allo stato dell'arte o vicino ad esse in diversi compiti. Gli autori vedono questo lavoro come una prova di principio che le Retentive Network possono servire come motori pratici e interpretabili per l'analisi delle sequenze biologiche. Con ulteriore messa a punto ed estensioni a DNA e proteine, RNAret e modelli correlati potrebbero diventare strumenti di uso quotidiano per trasformare i dati di sequenza grezzi in conoscenza su come le molecole interagiscono, si ripiegano e portano avanti le istruzioni della vita.

Citazione: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x

Parole chiave: modello di linguaggio per RNA, Retentive Network, predizione della struttura dell'RNA, interazioni microRNA, RNA non codificante lungo