Clear Sky Science · fr
Annotation de 200 génomes d’insectes avec BRAKER pour des comparaisons cohérentes entre espèces
Pourquoi les génomes d’insectes comptent
Les insectes façonnent notre monde : ils pollinisent les cultures, transmettent des maladies, recyclent les nutriments et inspirent de nouveaux matériaux et technologies. Aujourd’hui, nous pouvons lire l’ADN de milliers d’espèces d’insectes, mais posséder leurs génomes ne suffit pas. Il faut aussi une carte précise indiquant où se situent les gènes et quelle est leur fonction probable. Cet article décrit un vaste effort standardisé pour annoter les gènes de 200 espèces d’insectes à l’aide d’un flux de travail automatisé appelé VARUS-BRAKER, ce qui facilite grandement la comparaison entre espèces et permet de mieux comprendre comment les insectes ont évolué pour produire leur diversité remarquable.
Le problème des cartes génétiques inachevées
Au cours des vingt dernières années, le séquençage des génomes d’insectes est passé d’environ vingt espèces à plus de quatre mille. Pourtant, seulement un génome sur dix dispose d’une annotation génétique correcte dans les bases de données publiques. Même lorsque des annotations existent, beaucoup ont été produites il y a des années avec des méthodes et des données limitées. Différents groupes de recherche ont souvent utilisé des logiciels et des preuves distincts, ce qui peut créer des différences artificielles : un gène peut sembler absent ou mal formé dans une espèce simplement parce qu’il a été annoté avec un autre outil. Ce tissu de méthodes hétérogènes rend risqué de tirer des conclusions sur les véritables différences des gènes d’insectes entre espèces.

Un flux de travail « une touche » pour de nombreuses espèces
Les auteurs s’attaquent à ce goulot d’étranglement en construisant un flux de travail automatisé centré sur la chaîne de prédiction génique BRAKER3. Leur système VARUS-BRAKER est conçu de sorte que, en mode le plus simple, l’utilisateur n’a qu’à fournir le nom scientifique d’une espèce. Le flux télécharge alors automatiquement le meilleur génome disponible dans les archives publiques, collecte des données de séquençage d’ARN correspondantes qui révèlent quels gènes sont actifs, et récupère des informations protéiques d’espèces apparentées. Il masque l’ADN répétitif, aligne les lectures d’ARN sur le génome et combine les « indices » issus de l’ARN et des protéines pour apprendre à ses modèles où les gènes commencent, s’arrêtent et s’épissent. Des contrôles de qualité comme BUSCO et OMArk évaluent ensuite la complétude et la propreté de l’ensemble génique obtenu.
Un large panorama à travers l’arbre des insectes
Avec ce système, l’équipe a annoté 200 génomes d’insectes choisis pour couvrir les principales branches de l’arbre phylogénétique des insectes, en mettant l’accent sur les insectes holométaboles — ceux qui subissent une métamorphose complète de la larve à la nymphe puis à l’adulte — ainsi qu’un ensemble diversifié de proches parents. Leur échantillon couvre 77 familles et 14 ordres, incluant mouches, papillons, coléoptères, abeilles, fourmis, pucerons, blattes et autres. Quatre-vingt-cinq de ces espèces n’avaient aucune annotation antérieure dans GenBank. Pour chaque espèce, le flux a prédit des gènes codant des protéines, produisant plus de 4,2 millions de séquences protéiques. La plupart des génomes et de leurs protéomes prédits ont réussi des tests de complétude stricts, atteignant généralement au moins 85 à 95 % des gènes centraux attendus, ce qui indique que l’approche automatisée fournit des résultats de haute qualité.

Des listes de gènes au sens biologique
Lister les gènes ne suffit pas ; les chercheurs ont aussi besoin d’indices sur leurs fonctions. À cette fin, les auteurs ont appliqué une chaîne d’annotation fonctionnelle appelée FANTASIA, qui utilise des modèles de langage protéique modernes pour attribuer des termes de Gene Ontology (GO) — des étiquettes standard pour les rôles biologiques — à chaque protéine. Comparée à l’outil largement utilisé InterProScan, FANTASIA a annoté environ 1,6 fois plus de protéines, tout en concordant étroitement lorsque les deux méthodes faisaient des prédictions. L’équipe a également regroupé les gènes apparentés en « orthogroupes », ensembles de gènes partageant un ancêtre commun, et les a utilisés pour construire un arbre évolutif des 200 espèces. Ce cadre permet d’interroger quels gènes sont partagés, perdus ou amplifiés dans différentes lignées d’insectes, et de relier les répertoires géniques à des traits tels que la métamorphose ou le comportement larvaire.
Une ressource réutilisable pour de futures découvertes
Toutes les données de ce projet — structures géniques, séquences protéiques, étiquettes fonctionnelles, orthogroupes, arbres d’espèces et prédictions d’ARNt — sont librement accessibles via des dépôts publics. Les auteurs publient également le flux complet VARUS-BRAKER en code open source afin que d’autres scientifiques puissent annoter de nouveaux génomes d’insectes, voire d’autres animaux et plantes, de manière cohérente. Pour les non-spécialistes, l’essentiel est que ce travail transforme une collection dispersée de séquences d’ADN en un atlas cohérent et comparable des gènes d’insectes. Grâce à ces cartes standardisées, les études futures pourront plus fiablement révéler comment les insectes ont évolué le vol, la métamorphose et leur succès écologique, et mieux cibler les gènes pertinents pour l’agriculture, la conservation et la lutte contre les maladies.
Citation: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0
Mots-clés: génomique des insectes, annotation du génome, génomique comparative, biologie évolutive, bioinformatique