Clear Sky Science · es
Retentive Network promueve un modelado lingüístico eficiente del ARN para secuencias largas
Enseñar a las máquinas a leer los mensajes de ARN de la vida
Cada célula de tu cuerpo está llena de ARN, la molécula que ayuda a convertir las instrucciones genéticas en materia viva. Pero hoy los biólogos se enfrentan a un alud de datos de ARN que ningún humano puede leer línea por línea. Este artículo presenta RNAret, un modelo compacto de inteligencia artificial que «lee» secuencias de ARN de manera similar al lenguaje y que puede manejar tramos extremadamente largos de texto genético. Su objetivo es descubrir patrones ocultos que revelen cómo los ARN se pliegan, interactúan y distinguen planos funcionales del ruido de fondo, todo ello utilizando mucha menos potencia de cómputo que las herramientas actuales.
Una nueva forma de ver patrones en el ARN
RNAret se basa en un diseño emergente de IA llamado Retentive Network, propuesto originalmente como sucesor de los Transformers, los motores detrás de los modelos de lenguaje amplio para texto humano. En lugar de comparar cada posición de una secuencia con todas las demás —un paso que se vuelve muy costoso para cadenas largas—, el enfoque retentivo permite que el modelo «retenga» información importante a medida que avanza, con un coste que crece sólo en proporción directa a la longitud de la secuencia. Los autores adaptan esta idea a un codificador que examina en ambas direcciones a lo largo del ARN, creando un modelo ligero de unas 12 millones de parámetros que aún puede procesar miles de nucleótidos a la vez en una GPU de investigación estándar.

Aprender a partir de millones de secuencias de ARN sin etiquetar
Para enseñar a RNAret la «gramática» del ARN, el equipo lo entrenó con casi 30 millones de secuencias de ARN no codificante del repositorio RNAcentral, sin proporcionar etiquetas sobre el tipo o la función del ARN. Usaron una estrategia tomada del modelado del lenguaje: ocultar pequeños fragmentos de la secuencia y pedir al modelo que adivinara las piezas faltantes. A lo largo de 600.000 pasos de entrenamiento, RNAret aprendió de forma sostenida a predecir estos segmentos enmascarados, lo que indica que capturaba regularidades en la disposición de las bases. Cuando los investigadores examinaron más tarde las representaciones internas producidas por el modelo, encontraron que los ARN con roles y longitudes similares se agrupaban de forma natural en un espacio de baja dimensión, a pesar de que el modelo nunca había recibido indicaciones sobre a qué categoría pertenecía cada secuencia.
Poner el modelo a trabajar en preguntas biológicas reales
Los autores evaluaron luego si estos patrones aprendidos del ARN ayudan a resolver problemas prácticos. Primero, RNAret fue afinado para juzgar si un ARN regulador corto llamado microARN puede unirse a una región diana en un ARN más largo. En un punto de referencia estándar de más de 27.000 pares microARN–mRNA, la versión de RNAret que lee fragmentos de cinco letras de la secuencia superó a varios modelos lingüísticos de ARN de mayor tamaño y a una herramienta profunda especializada, alcanzando altas puntuaciones de precisión y F1. Cuando los investigadores inspeccionaron las «puntuaciones de retención» internas del modelo, vieron que éste se centraba de forma natural en la región «semilla» del microARN —el tramo clave conocido por experimentos que impulsa la unión— y en la sección coincidente del ARN diana, lo que indica que las decisiones del modelo se basaban en biología real y no en atajos espurios.

Reconstruir formas y clasificar tipos de ARN
A continuación, el equipo desafió a RNAret a predecir cómo las cadenas simples de ARN se pliegan sobre sí mismas en estructuras secundarias. Usando conjuntos de datos de referencia depurados, la versión más simple de RNAret (leyendo una base a la vez) produjo mapas de contactos de apareamientos de bases que a menudo estaban más cerca de las estructuras conocidas experimentalmente que las herramientas populares de aprendizaje profundo y termodinámicas, especialmente para ARN de longitud moderada. Las salidas del modelo, combinadas con un paso de postprocesado que aplica reglas físicas sobre qué bases pueden emparejarse, generaron predicciones más limpias y con menos ruido. En una tercera prueba, RNAret aprendió a distinguir los ARN codificantes de proteínas de los ARN largos no codificantes en genomas humano y de ratón. Debido a que puede procesar transcritos de longitud completa sin fragmentarlos, manejó bien secuencias parciales y largas, superando a los métodos clásicos basados en marcos de lectura abiertos y a la mayoría de los modelos lingüísticos de ARN competidores, particularmente en el gran conjunto de datos humano.
Rápido, eficiente y listo para crecer
Más allá de la precisión, RNAret fue diseñado para ser rápido. Gracias a su arquitectura basada en retención, el modelo procesa del orden de cien mil unidades de ARN por segundo durante el preentrenamiento en una única GPU de alto nivel, y sigue siendo eficiente incluso cuando se afina para predicción de estructuras o clasificación. A pesar de ser mucho más pequeño que muchos modelos biológicos recientes, consigue rendimientos de vanguardia o cercanos a la vanguardia en tareas diversas. Los autores ven esto como una prueba de concepto de que las Retentive Networks pueden servir como motores prácticos e interpretables para el análisis de secuencias biológicas. Con ajustes posteriores y extensiones al ADN y a las proteínas, RNAret y modelos relacionados podrían convertirse en herramientas cotidianas para transformar datos de secuencias crudas en conocimiento sobre cómo las moléculas interactúan, se pliegan y ejecutan las instrucciones de la vida.
Cita: Shen, Y., Cao, G., Hu, Y. et al. Retentive Network promotes efficient RNA language modeling of long sequences. Commun Biol 9, 575 (2026). https://doi.org/10.1038/s42003-026-09757-x
Palabras clave: modelo lingüístico de ARN, Retentive Network, predicción de estructura de ARN, interacciones microARN, ARN largo no codificante