Clear Sky Science · it

Annotazione di 200 genomi di insetti con BRAKER per confronti coerenti tra specie

· Torna all'indice

Perché i genomi degli insetti sono importanti

Gli insetti modellano il nostro mondo: impollinano le colture, diffondono malattie, riciclano nutrienti e ispirano nuovi materiali e tecnologie. Oggi possiamo leggere il DNA di migliaia di specie di insetti, ma avere i genomi non basta. Serve anche una mappa chiara di dove si trova ogni gene e quale funzione probabilmente svolge. Questo articolo descrive un ampio sforzo standardizzato per annotare i geni di 200 specie di insetti usando un flusso di lavoro automatizzato chiamato VARUS-BRAKER, facilitando notevolmente il confronto tra specie e la scoperta di come gli insetti hanno evoluto la loro straordinaria diversità.

Il problema delle mappe genetiche incomplete

Nelle ultime due decadi il sequenziamento dei genomi degli insetti è esploso, passando da circa venti specie a oltre quattromila. Eppure solo circa un decimo di questi genomi dispone di una corretta annotazione genica nelle banche dati pubbliche. Anche quando sono disponibili annotazioni, molte sono state create anni fa con metodi più vecchi e dati limitati. Gruppi di ricerca diversi hanno spesso usato software e evidenze diverse, il che può generare differenze artificiali: un gene può sembrare assente o dalla forma anomala in una specie semplicemente perché è stato annotato con un altro strumento. Questo mosaico di metodi rende rischioso trarre conclusioni su come i geni degli insetti differiscano realmente tra specie.

Figura 1
Figura 1.

Un flusso di lavoro a colpo secco per molte specie

Gli autori affrontano questo collo di bottiglia costruendo un flusso di lavoro automatizzato incentrato sulla pipeline di predizione genica BRAKER3. Il loro sistema VARUS-BRAKER è progettato in modo che, nella modalità più semplice, all’utente sia richiesto solo il nome scientifico di una specie. Il flusso di lavoro scarica automaticamente il miglior genoma disponibile dagli archivi pubblici, raccoglie dati di RNA-seq corrispondenti che mostrano quali geni sono attivi e recupera informazioni proteiche da specie affini. Maschera il DNA ripetitivo, allinea le letture di RNA al genoma e combina gli “indizi” forniti da RNA e proteine per insegnare ai modelli dove è probabile che i geni inizino, terminino e si splichino. Controlli di qualità come BUSCO e OMArk valutano quindi quanto sia completo e pulito il set genico risultante.

Un ampio tour attraverso l’albero degli insetti

Utilizzando questo sistema, il team ha annotato 200 genomi di insetti scelti per coprire i rami principali dell’albero filogenetico degli insetti, con un focus sugli olometaboli—quelli con metamorfosi completa da larva a pupa ad adulto—più un insieme diversificato di parenti. Il campione comprende 77 famiglie e 14 ordini, tra cui mosche, farfalle, coleotteri, api, formiche, afidi, scarafaggi e altri. Ottantacinque di queste specie non avevano precedenti annotazioni in GenBank. Per ciascuna specie, il flusso di lavoro ha predetto geni codificanti proteine, ottenendo oltre 4,2 milioni di sequenze proteiche. La maggior parte dei genomi e dei rispettivi proteomi predetti ha superato test stringenti di completezza, raggiungendo tipicamente almeno l’85–95% dei geni core attesi, a indicare che l’approccio automatizzato produce risultati di alta qualità.

Figura 2
Figura 2.

Dalle liste geniche al significato biologico

Elencare i geni è solo una parte della storia; i ricercatori hanno anche bisogno di indizi sulla funzione di questi geni. A tal fine, gli autori hanno applicato una pipeline di annotazione funzionale chiamata FANTASIA, che utilizza modelli linguistici proteici moderni per assegnare termini di Gene Ontology (GO)—etichette standard per i ruoli biologici—a ciascuna proteina. Rispetto allo strumento ampiamente usato InterProScan, FANTASIA ha annotato circa 1,6 volte più proteine, pur mostrando un forte accordo quando entrambi i metodi producevano predizioni. Il team ha inoltre raggruppato i geni correlati in “orthogroup”, insiemi di geni che condividono un antenato comune, e li ha usati per costruire un albero evolutivo delle 200 specie. Questo quadro consente di interrogarsi su quali geni siano condivisi, persi o espansi in diverse linee di insetti e di collegare i repertori genici a tratti come la metamorfosi o il comportamento larvale.

Una risorsa riutilizzabile per scoperte future

Tutti i dati di questo progetto—incluse strutture geniche, sequenze proteiche, etichette funzionali, orthogroup, alberi delle specie e predizioni di tRNA—sono liberamente disponibili tramite repository pubblici. Gli autori pubblicano anche l’intero flusso di lavoro VARUS-BRAKER come codice open source in modo che altri scienziati possano annotare nuovi genomi di insetti, o persino di altri animali e piante, in modo coerente. Per i non specialisti, il punto chiave è che questo lavoro trasforma una collezione frammentaria di sequenze di DNA in un atlante coerente e comparabile dei geni degli insetti. Con queste mappe standardizzate, studi futuri potranno scoprire con maggiore affidabilità come gli insetti hanno evoluto il volo, la metamorfosi e il successo ecologico, e mirare meglio ai geni rilevanti per l’agricoltura, la conservazione e il controllo delle malattie.

Citazione: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0

Parole chiave: genomica degli insetti, annotazione del genoma, genomica comparativa, biologia evolutiva, bioinformatica