Clear Sky Science · es
Anotación de 200 genomas de insectos con BRAKER para comparaciones consistentes entre especies
Por qué importan los genomas de los insectos
Los insectos moldean nuestro mundo: polinizan cultivos, transmiten enfermedades, reciclan nutrientes e inspiran nuevos materiales y tecnologías. Hoy podemos leer el ADN de miles de especies de insectos, pero disponer de sus genomas no basta. También necesitamos un mapa claro de dónde está cada gen y cuál es su probable función. Este artículo describe un gran esfuerzo estandarizado para anotar los genes de 200 especies de insectos usando un flujo de trabajo automatizado llamado VARUS-BRAKER, lo que facilita mucho a los científicos comparar especies y descubrir cómo los insectos evolucionaron hacia su notable diversidad.
El problema de los mapas genéticos incompletos
En las últimas dos décadas, la secuenciación de genomas de insectos se ha disparado, pasando de unas veinte especies a más de cuatro mil. Sin embargo, solo aproximadamente una de cada diez de estos genomas tiene una anotación génica adecuada en bases de datos públicas. Incluso cuando existen anotaciones, muchas se crearon hace años con métodos antiguos y datos limitados. Diferentes grupos de investigación a menudo usaron software y evidencias distintas, lo que puede crear diferencias artificiales: un gen puede parecer ausente o tener una forma extraña en una especie simplemente porque fue anotado con otra herramienta. Este mosaico de métodos hace arriesgado sacar conclusiones sobre cómo difieren realmente los genes entre especies de insectos.

Un flujo de trabajo de un solo botón para muchas especies
Los autores abordan este cuello de botella construyendo un flujo de trabajo automatizado centrado en la tubería de predicción génica BRAKER3. Su sistema VARUS-BRAKER está diseñado de modo que, en el modo más simple, el usuario solo necesita proporcionar el nombre científico de una especie. El flujo de trabajo descarga automáticamente el mejor genoma disponible de los archivos públicos, recopila datos de secuenciación de ARN coincidentes que muestran qué genes están activos y recupera información de proteínas de especies relacionadas. Enmascara el ADN repetitivo, alinea las lecturas de ARN al genoma y combina las “pistas” de ARN y proteínas para entrenar sus modelos sobre dónde es probable que comiencen, terminen y se empalmen los genes. Controles de calidad como BUSCO y OMArk evalúan entonces cuán completo y limpio es el conjunto génico resultante.
Un amplio recorrido por el árbol de los insectos
Usando este sistema, el equipo anotó 200 genomas de insectos elegidos para cubrir las principales ramas del árbol filogenético de los insectos, con un enfoque en los holometábolos —aquellos con metamorfosis completa de larva a pupa y adulto— además de un conjunto diverso de parientes. Su muestra abarca 77 familias y 14 órdenes, incluidos dípteros, lepidópteros, coleópteros, himenópteros, himenópteros sociales como abejas y hormigas, áfidos, cucarachas y otros. Ochenta y cinco de estas especies no tenían anotación previa en GenBank. Para cada especie, el flujo de trabajo predijo genes codificadores de proteínas, dando lugar a más de 4,2 millones de secuencias proteicas. La mayoría de los genomas y sus proteomas predichos superaron pruebas estrictas de integridad, alcanzando típicamente al menos el 85–95 % de cobertura de los genes centrales esperados, lo que indica que el enfoque automatizado produce resultados de alta calidad.

De las listas de genes al significado biológico
Listar genes es solo parte de la historia; los investigadores también necesitan indicios sobre qué hacen esos genes. Con ese objetivo, los autores aplicaron una tubería de anotación funcional llamada FANTASIA, que usa modelos de lenguaje de proteínas modernos para asignar términos de la Ontología Génica (GO), etiquetas estándar para funciones biológicas, a cada proteína. En comparación con la herramienta ampliamente utilizada InterProScan, FANTASIA anotó alrededor de 1,6 veces más proteínas, manteniendo al mismo tiempo una fuerte concordancia cuando ambos métodos hicieron predicciones. El equipo también agrupó genes relacionados en “ortogrupos”, conjuntos de genes que comparten un ancestro común, y los usó para construir un árbol evolutivo de las 200 especies. Este marco permite preguntar qué genes se comparten, se pierden o se expanden en distintas líneas de insectos, y conectar los repertorios génicos con rasgos como la metamorfosis o el comportamiento larvario.
Un recurso reutilizable para futuros descubrimientos
Todos los datos de este proyecto —incluyendo estructuras génicas, secuencias proteicas, etiquetas funcionales, ortogrupos, árboles de especies y predicciones de ARNt— están disponibles gratuitamente en repositorios públicos. Los autores también publican el flujo de trabajo completo VARUS-BRAKER como código de fuente abierta para que otros científicos puedan anotar nuevos genomas de insectos, o incluso de otros animales y plantas, de manera consistente. Para los no especialistas, la conclusión clave es que este trabajo convierte una colección dispersa de secuencias de ADN en un atlas coherente y comparable de genes de insectos. Con estos mapas estandarizados, los estudios futuros podrán descubrir con mayor fiabilidad cómo evolucionaron el vuelo, la metamorfosis y el éxito ecológico de los insectos, y podrán orientar mejor los genes relevantes para la agricultura, la conservación y el control de enfermedades.
Cita: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0
Palabras clave: genómica de insectos, anotación del genoma, genómica comparativa, biología evolutiva, bioinformática