Clear Sky Science · sv

Anmärkning av 200 insektsgenom med BRAKER för konsekventa jämförelser mellan arter

· Tillbaka till index

Varför insektsgenom är viktiga

Insekter formar vår värld: de pollinerar grödor, sprider sjukdomar, återvinner näringsämnen och inspirerar nya material och tekniker. Idag kan vi läsa DNA från tusentals insektsarter, men att bara ha deras genom räcker inte. Vi behöver också en tydlig karta över var varje gen ligger och vad den sannolikt gör. Den här artikeln beskriver en omfattande, standardiserad insats för att annotera generna i 200 insektsarter med ett automatiserat arbetsflöde kallat VARUS-BRAKER, vilket gör det mycket enklare för forskare att jämföra arter och upptäcka hur insekter utvecklat sin anmärkningsvärda mångfald.

Problemet med ofullständiga genetiska kartor

Under de senaste två decennierna har sekvensering av insektsgenom exploderat från ungefär tjugo arter till över fyratusen. Ändå har bara ungefär en av tio av dessa genom en korrekt genannotering i offentliga databaser. Även när annotationer finns skapades många av dem för flera år sedan med äldre metoder och begränsade data. Olika forskargrupper använde ofta olika programvara och bevisning, vilket kan skapa konstgjorda skillnader: en gen kan verka saknas eller ha en ovanlig form i en art helt enkelt för att den annoterades med ett annat verktyg. Detta lapptäcke av metoder gör det riskabelt att dra slutsatser om hur insektsgener verkligen skiljer sig mellan arter.

Figure 1
Figure 1.

Ett ettklicksarbetsflöde för många arter

Författarna tar itu med denna flaskhals genom att bygga ett automatiserat arbetsflöde centrerat kring genprediktionspipen BRAKER3. Deras VARUS-BRAKER-system är utformat så att användaren, i det enklaste läget, endast behöver ange artens vetenskapliga namn. Arbetsflödet laddar sedan automatiskt ner det bästa tillgängliga genomet från offentliga arkiv, samlar matchande RNA-sekvenseringsdata som visar vilka gener som är aktiva och hämtar proteininformation från närbesläktade arter. Det maskerar repetitivt DNA, alignerar RNA-läsningar till genomet och kombinerar RNA- och protein"ledtrådar" för att lära sina modeller var gener sannolikt startar, slutar och splitsas. Kvalitetskontroller som BUSCO och OMArk bedömer sedan hur fullständig och ren den resulterande gensatsen är.

En bred rundresa över insekternas stamträd

Med detta system annoterade teamet 200 insektsgenom valda för att täcka huvudgrenarna i insekternas familjeträd, med fokus på holometabola insekter—de med fullständig förvandling från larv till puppa till vuxen—samt en mångfald av släktingar. Deras urval spänner över 77 familjer och 14 ordningar, inklusive flugor, fjärilar, skalbaggar, bin, myror, bladlöss, kackerlackor och andra. Åttiofem av dessa arter saknade tidigare annotation i GenBank. För varje art förutsade arbetsflödet proteinkodande gener, vilket resulterade i mer än 4,2 miljoner proteiner. De flesta genom och deras förutsagda proteom klarade stränga fullständighetstester, och nådde typiskt minst 85–95 % täckning av förväntade kärngener, vilket tyder på att den automatiserade metoden ger resultat av hög kvalitet.

Figure 2
Figure 2.

Från genlistor till biologisk mening

Att lista gener är bara en del av historien; forskare behöver också ledtrådar om vad dessa gener gör. För detta ändamål tillämpade författarna ett funktionellt annoteringsflöde kallat FANTASIA, som använder moderna proteinspråksmodeller för att tilldela Gene Ontology (GO)-termer—standardiserade etiketter för biologiska roller—till varje protein. Jämfört med det vida använda verktyget InterProScan annoterade FANTASIA ungefär 1,6 gånger fler proteiner, samtidigt som den fortfarande överensstämde nära när båda metoderna gav förutsägelser. Teamet grupperade också närbesläktade gener i "orthogroups", uppsättningar gener som delar en gemensam förfader, och använde dessa för att bygga ett evolutionärt träd för de 200 arterna. Detta ramverk gör det möjligt att fråga vilka gener som är delade, förlorade eller expanderade i olika insektslinjer, och att koppla genrepertoarer till egenskaper som förvandling eller larvbeteende.

En återanvändbar resurs för framtida upptäckter

All data från detta projekt—inklusive genstrukturer, proteinsekvenser, funktionella etiketter, orthogroups, artträd och tRNA-förutsägelser—finns fritt tillgängliga via offentliga arkiv. Författarna publicerar också hela VARUS-BRAKER-arbetsflödet som öppen källkod så att andra forskare kan annotera nya insektsgenom, eller till och med andra djur och växter, på ett konsekvent sätt. För icke-specialister är huvudbudskapet att detta arbete omvandlar en splittrad samling DNA-sekvenser till en sammanhängande, jämförbar atlas över insektsgener. Med dessa standardiserade kartor kan framtida studier mer tillförlitligt avslöja hur insekter utvecklat flygförmåga, förvandling och ekologisk framgång, och bättre rikta in gener som är relevanta för jordbruk, naturvård och bekämpning av sjukdomar.

Citering: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0

Nyckelord: insektsgenomik, genomannotering, jämförande genomik, evolutionär biologi, bioinformatik