Clear Sky Science · fr
Le réseau Retentive favorise la modélisation linguistique efficace de l’ARN pour les longues séquences
Apprendre aux ordinateurs à lire les messages ARN de la vie
Chaque cellule de votre corps contient de l’ARN, la molécule qui aide à transformer les instructions génétiques en matière vivante. Mais aujourd’hui, les biologistes sont confrontés à un flux de données ARN trop important pour être lu ligne par ligne par un humain. Cet article présente RNAret, un modèle d’intelligence artificielle compact qui « lit » les séquences d’ARN comme un langage et peut traiter des longueurs extrêmement importantes de texte génétique. Son objectif est de découvrir des motifs cachés révélant comment les ARN se repliquent, interagissent et distinguent des plans fonctionnels du bruit de fond — tout en utilisant beaucoup moins de puissance de calcul que les outils actuels.
Une nouvelle manière de voir les motifs dans l’ARN
RNAret est construit sur une architecture d’IA émergente appelée Réseau Retentive, proposée à l’origine comme successeur des Transformers, moteurs des grands modèles de langage pour le texte humain. Plutôt que de comparer chaque position d’une séquence avec toutes les autres — une étape qui devient très coûteuse pour les longues chaînes — l’approche Retentive permet au modèle de « retenir » l’information importante au fur et à mesure, avec un coût qui croît en proportion directe de la longueur de la séquence. Les auteurs ont adapté cette idée en un encodeur qui regarde dans les deux sens le long de l’ARN, créant un modèle léger d’environ 12 millions de paramètres capable de traiter des milliers de lettres d’ARN à la fois sur un GPU de recherche standard.

Apprendre à partir de millions de séquences d’ARN non étiquetées
Pour enseigner à RNAret la « grammaire » de l’ARN, l’équipe l’a entraîné sur près de 30 millions de séquences d’ARN non codantes issues de la base RNAcentral, sans fournir d’étiquettes sur le type ou la fonction des ARN. Ils ont utilisé une stratégie empruntée à la modélisation du langage : masquer de petits segments de la séquence et demander au modèle de deviner les morceaux manquants. Sur 600 000 étapes d’entraînement, RNAret a progressivement appris à prédire ces segments masqués, ce qui indique qu’il captait des régularités dans l’arrangement des bases. Lorsque les chercheurs ont ensuite examiné les représentations internes produites par le modèle, ils ont constaté que les ARN de rôles et de longueurs similaires se regroupaient naturellement dans un espace de faible dimension, même si le modèle n’avait jamais reçu d’information sur l’appartenance des séquences à une catégorie particulière.
Mettre le modèle au service de questions biologiques réelles
Les auteurs ont ensuite testé si ces motifs appris aidaient à résoudre des problèmes pratiques. D’abord, RNAret a été affiné pour juger si un court ARN régulateur appelé microARN peut se lier à une région cible sur un ARN plus long. Sur un benchmark standard de plus de 27 000 paires microARN–ARNm, la version de RNAret qui lit des segments de cinq lettres de séquence a surpassé plusieurs modèles linguistiques ARN plus grands et un outil de deep learning spécialisé, atteignant une forte précision et des scores F1 élevés. Lorsque les chercheurs ont inspecté les « scores de rétention » internes du modèle, ils ont observé qu’il mettait naturellement l’accent sur la région « seed » du microARN — la séquence clé connue expérimentalement pour conduire la liaison — ainsi que sur la section correspondante de l’ARN cible, ce qui indique que les décisions du modèle s’appuyaient sur une base biologique réelle plutôt que sur des raccourcis factices.

Reconstruire des formes et classer les types d’ARN
Ensuite, l’équipe a mis au défi RNAret de prédire comment des brins d’ARN simples se replient sur eux-mêmes en structures secondaires. En utilisant des jeux de données de référence nettoyés, la version la plus simple de RNAret (lisant une base à la fois) a produit des cartes de contacts de paires de bases souvent plus proches des structures connues expérimentalement que des outils populaires de deep learning et thermodynamiques, en particulier pour des ARN de longueur modérée. Les sorties du modèle, combinées à une étape de post-traitement qui impose des règles physiques sur les appariements possibles, ont donné des prédictions plus nettes et moins bruitées. Dans un troisième test, RNAret a appris à distinguer les ARN codant pour des protéines des longs ARN non codants dans les génomes humain et murin. Parce qu’il peut traiter des transcrits en pleine longueur sans les fragmenter, il a bien géré les séquences partielles et longues, dépassant les méthodes classiques basées sur les cadres de lecture ouverts et la plupart des modèles linguistiques ARN concurrents, notamment sur le grand jeu de données humain.
Rapide, efficace et prêt à évoluer
Au-delà de la précision, RNAret a été conçu pour être rapide. Grâce à son architecture basée sur la rétention, le modèle traite de l’ordre de cent mille unités d’ARN par seconde pendant le préentraînement sur un GPU haut de gamme unique, et il reste efficace même lorsqu’il est affiné pour la prédiction de structure ou la classification. Malgré sa taille bien moindre que celle de nombreux modèles linguistiques biologiques récents, il atteint des performances à la pointe ou proches de la pointe sur des tâches variées. Les auteurs y voient une preuve de concept que les Réseaux Retentive peuvent servir de moteurs pratiques et interprétables pour l’analyse des séquences biologiques. Avec un réglage supplémentaire et des extensions au DNA et aux protéines, RNAret et les modèles apparentés pourraient devenir des outils quotidiens pour transformer des données de séquences brutes en connaissances sur la façon dont les molécules interagissent, se replient et exécutent les instructions de la vie.
Citation: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x
Mots-clés: modèle linguistique ARN, Réseau Retentive, prédiction de la structure de l’ARN, interactions microARN, ARN non codant long