Clear Sky Science · nl
Annotatie van 200 insectengenomen met BRAKER voor consistente vergelijkingen tussen soorten
Waarom insectengenomen ertoe doen
Insecten vormen onze wereld: ze bestuiven gewassen, verspreiden ziektes, recyclen voedingsstoffen en inspireren nieuwe materialen en technologieën. Tegenwoordig kunnen we het DNA van duizenden insectensoorten uitlezen, maar alleen het hebben van hun genomen is niet voldoende. We hebben ook een duidelijke kaart nodig van waar elk gen zich bevindt en wat het waarschijnlijk doet. Dit artikel beschrijft een grote, gestandaardiseerde inspanning om de genen van 200 insectensoorten te annoteren met een geautomatiseerde workflow genaamd VARUS-BRAKER, waardoor het voor wetenschappers veel eenvoudiger wordt om soorten te vergelijken en te ontdekken hoe insecten hun opmerkelijke diversiteit hebben ontwikkeld.
Het probleem van onvolledige genetische kaarten
In de afgelopen twee decennia is het sequencen van insectengenomen geëxplodeerd van ongeveer twintig soorten naar meer dan vierduizend. Toch heeft slechts ongeveer één op de tien van deze genomen een correcte genannotatie in openbare databanken. Zelfs wanneer annotaties bestaan, zijn veel daarvan jaren geleden gemaakt met oudere methoden en beperkte gegevens. Verschillende onderzoeksgroepen gebruikten vaak verschillende software en bewijsmaterialen, wat kunstmatige verschillen kan creëren: een gen kan in één soort ontbreken of vreemd van vorm lijken simpelweg omdat het met een ander hulpmiddel is geannoteerd. Dit lappendeken van methoden maakt het riskant om conclusies te trekken over hoe insectengenen werkelijk tussen soorten verschillen.

Een één-klik workflow voor veel soorten
De auteurs tackelen deze knelpunten door een geautomatiseerde workflow op te zetten rond de BRAKER3-genvoorspellingspijplijn. Hun VARUS-BRAKER-systeem is zo ontworpen dat een gebruiker in de eenvoudigste modus alleen de wetenschappelijke naam van een soort hoeft op te geven. De workflow downloadt dan automatisch het beste beschikbare genoom uit openbare archieven, verzamelt bijpassende RNA-sequencinggegevens die laten zien welke genen actief zijn, en haalt proteïne-informatie op van verwante soorten. Hij maskeert repetitief DNA, lijnt RNA-reads uit op het genoom en combineert RNA- en proteïne-"clues" om zijn modellen te leren waar genen waarschijnlijk beginnen, stoppen en gesplitst worden. Kwaliteitscontroles zoals BUSCO en OMArk beoordelen vervolgens hoe compleet en schoon de resulterende genset is.
Een brede rondreis door de insectenboom
Met dit systeem annoteerde het team 200 insectengenomen die zo waren gekozen dat ze de belangrijkste takken van de insectenstamboom dekken, met een focus op holometabole insecten—de soorten met volledige metamorfose van larve naar pop naar volwassen dier—plus een diverse reeks verwanten. Hun steekproef omvat 77 families en 14 orden, waaronder vliegen, vlinders, kevers, bijen, mieren, bladluizen, kakkerlakken en anderen. Vijfentachtig van deze soorten hadden geen eerdere annotatie in GenBank. Voor elke soort voorspelde de workflow eiwit-coderende genen, wat resulteerde in meer dan 4,2 miljoen eiwitsequenties. De meeste genomen en hun voorspelde proteomen slaagden voor strenge volledigheidstests, meestal met ten minste 85–95% dekking van verwachte kerngenen, wat erop wijst dat de geautomatiseerde aanpak hoogwaardige resultaten oplevert.

Van genlijsten naar biologische betekenis
Het opsommen van genen is slechts een deel van het verhaal; onderzoekers hebben ook aanwijzingen nodig over wat deze genen doen. Daarom pasten de auteurs een functionele annotatiepijplijn toe genaamd FANTASIA, die moderne eiwittaalmodellen gebruikt om Gene Ontology (GO)-termen—standaardlabels voor biologische rollen—aan elk eiwit toe te kennen. Vergeleken met het veelgebruikte InterProScan-hulpmiddel annoteerde FANTASIA ongeveer 1,6 keer zoveel eiwitten, terwijl het nog steeds goed overeenkwam wanneer beide methoden voorspellingen deden. Het team groepeerde ook verwante genen in "orthogroepen", sets genen die een gemeenschappelijke voorouder delen, en gebruikte deze om een evolutionaire boom van de 200 soorten te bouwen. Dit raamwerk maakt het mogelijk te vragen welke genen gedeeld, verloren of uitgebreid zijn in verschillende insectenlijnen, en om genrepertoires te koppelen aan eigenschappen zoals metamorfose of larvaal gedrag.
Een herbruikbare bron voor toekomstige ontdekkingen
Alle gegevens van dit project—including genstructuren, eiwitsequenties, functionele labels, orthogroepen, soortenbomen en tRNA-voorspellingen—zijn vrij beschikbaar via openbare repositories. De auteurs publiceren ook de volledige VARUS-BRAKER-workflow als open-source code zodat andere wetenschappers nieuwe insectengenomen, of zelfs andere dieren en planten, op een consistente manier kunnen annoteren. Voor niet-specialisten is de belangrijkste conclusie dat dit werk een verspreide verzameling DNA-sequenties omzet in een coherent, vergelijkbaar atlas van insectgenen. Met deze gestandaardiseerde kaarten kunnen toekomstige studies betrouwbaarder ontdekken hoe insecten vlucht, metamorfose en ecologisch succes hebben ontwikkeld, en beter richten op genen die relevant zijn voor landbouw, behoud en ziektebestrijding.
Bronvermelding: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0
Trefwoorden: insectengenomica, genoomannotatie, vergelijkende genomica, evolutionaire biologie, bio-informatica