Clear Sky Science · sv

Retentive Network främjar effektiv språkbearbetning av långa RNA-sekvenser

· Tillbaka till index

Att lära datorer läsa livets RNA-meddelanden

Varje cell i din kropp är full av RNA, molekylen som hjälper till att förvandla genetiska instruktioner till levande materia. Men dagens biologer möter en flod av RNA-data som ingen människa kan läsa rad för rad. Denna artikel presenterar RNAret, en kompakt artificiell intelligensmodell som ”läser” RNA-sekvenser ungefär som språk och kan hantera extremt långa stycken genetisk text. Målet är att avslöja dolda mönster som visar hur RNA veckar sig, interagerar och skiljer fungerande ritningar från bakgrundsbrus — allt medan den använder avsevärt mindre beräkningskraft än nuvarande verktyg.

Ett nytt sätt att se mönster i RNA

RNAret är byggd på en framväxande AI-arkitektur kallad Retentive Network, ursprungligen föreslagen som en efterföljare till Transformers, motorerna bakom stora språkmodeller för mänsklig text. Istället för att jämföra varje position i en sekvens med varje annan — ett steg som blir mycket kostsamt för långa strängar — låter Retentive-ansatsen modellen ”behålla” viktig information när den rör sig längs sekvensen, med en kostnad som bara växer proportionellt mot sekvenslängden. Författarna anpassar denna idé till en encoder som ser i båda riktningarna längs RNA:t, vilket skapar en lättviktig modell med cirka 12 miljoner parametrar som ändå kan bearbeta tusentals RNA-bokstäver samtidigt på en standard forsknings-GPU.

Figure 1
Figure 1.

Att lära av miljontals omärkta RNA-sekvenser

För att lära RNAret RNA:s ”grammatik” tränade teamet den på nästan 30 miljoner icke-kodande RNA-sekvenser från RNAcentral-databasen, utan att ange några etiketter om RNA-typ eller funktion. De använde en strategi lånad från språkmodellering: dölja små beståndsdelar av sekvensen och be modellen gissa de saknade delarna. Under 600 000 träningssteg lärde sig RNAret stadigt att förutsäga dessa maskade segment, vilket indikerade att den fångade regelbundenheter i hur baserna är ordnade. När forskarna senare undersökte de interna representationerna som modellen producerade fann de att RNA med liknande roller och längder naturligt klustrade ihop sig i lågdimensionellt utrymme, trots att modellen aldrig blivit tillsagd vilka sekvenser som hörde till vilka kategorier.

Tillämpning på verkliga biologiska frågor

Författarna testade sedan om dessa inlärda RNA-mönster hjälper till att lösa praktiska problem. Först finjusterades RNAret för att bedöma om ett kort reglerande RNA kallat microRNA kan binda till en målregion på en längre RNA-molekyl. På en standardbenchmark med över 27 000 microRNA–mRNA-par presterade den version av RNAret som läser fem-bokstavsfragment bättre än flera större RNA-språkmodeller och ett specialiserat djupinlärningsverktyg, och nådde höga noggrannhets- och F1-värden. När forskarna inspekterade modellens interna ”retentionspoäng” såg de att den naturligt fokuserade på microRNA:s ”seed”-region — den nyckelsträcka som experimentellt är känd för att driva bindning — och den matchande sektionen på mål-RNA:t, vilket tyder på att modellens beslut grundade sig i verklig biologi snarare än slumpmässiga genvägar.

Figure 2
Figure 2.

Återskapa former och sortera RNA-typer

Därefter utmanade teamet RNAret att förutsäga hur enskilda RNA-strängar veckar tillbaka på sig själva till sekundärstrukturer. Med rengjorda benchmark-dataset producerade den enklaste versionen av RNAret (läser en bas åt gången) kontaktkartor över baspar som ofta låg närmare de experimentellt kända strukturerna än populära djupinlärnings- och termodynamiska verktyg, särskilt för RNA av måttlig längd. Modellens utdata, kombinerat med ett efterbehandlingssteg som inför fysiska regler om vilka baser som kan para sig, gav renare och mindre brusiga prediktioner. I ett tredje test lärde sig RNAret att skilja protein-kodande RNA från långa icke-kodande RNA i mänskliga och musgenom. Eftersom den kan bearbeta hela transkript utan att stycka upp dem hanterade den partiella och långa sekvenser väl, och överträffade klassiska metoder baserade på öppen läsram och de flesta konkurrerande RNA-språkmodeller, särskilt på det stora mänskliga datasettet.

Snabb, effektiv och redo att växa

Bortom noggrannhet är RNAret designad för att vara snabb. Tack vare sin retention-baserade arkitektur bearbetar modellen i storleksordningen hundratusen RNA-enheter per sekund under förträning på en enda högpresterande GPU, och den förblir effektiv även när den finjusteras för strukturprediktion eller klassificering. Trots att den är mycket mindre än många nyare biologiska språkmodeller uppnår den topp- eller nära-topp-prestanda på olika uppgifter. Författarna ser detta som ett konceptbevis att Retentive Networks kan fungera som praktiska, tolkbara motorer för biologisk sekvensanalys. Med vidare finjustering och utvidgningar till DNA och protein kan RNAret och relaterade modeller bli vardagsverktyg för att omvandla rå sekvensdata till insikter om hur molekyler interagerar, veckar sig och utför livets instruktioner.

Citering: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x

Nyckelord: RNA-språkmodell, Retentive Network, RNA-strukturprediktion, microRNA-interaktioner, långa icke-kodande RNA