Clear Sky Science · fr
BiG-SCAPE 2.0 et BiG-SLiCE 2.0 : regroupement évolutif, précis et interactif des séquences de clusters de gènes métaboliques
Trouvailles chimiques cachées dans l’ADN microbien
Beaucoup des médicaments et des agents de protection des cultures sur lesquels nous comptons proviennent de petites molécules produites par des microbes. Ces organismes dissimulent les recettes de ces molécules dans des segments d’ADN appelés clusters de gènes. À mesure que le séquençage de l’ADN progresse à grande vitesse, les chercheurs sont submergés par les données, mais ne connaissent encore qu’une petite fraction de ce que les microbes peuvent synthétiser. Cet article présente BiG-SCAPE 2.0 et BiG-SLiCE 2.0, deux outils logiciels améliorés qui aident les scientifiques à fouiller d’immenses archives génomiques pour cartographier, comparer et organiser ces « usines moléculaires » cachées, rapprochant la découverte de la prochaine génération d’antibiotiques et de composés agricoles.

Pourquoi les clusters de gènes comptent pour la santé et l’agriculture
Les microbes utilisent de petites molécules spécialisées pour entrer en compétition, communiquer et s’adapter à leur environnement. Les plans d’assemblage pour produire ou dégrader ces molécules sont souvent groupés dans des clusters de gènes métaboliques. Ceux-ci incluent des clusters biosynthétiques qui construisent des produits naturels complexes, et des clusters cataboliques qui permettent aux microbes de se nourrir de composés particuliers ou d’exsudats racinaires. Parce que les gènes d’un cluster agissent de concert, repérer une telle région dans un génome revient à identifier une « chaîne de production » autonome qui peut donner des indices sur la structure et la fonction d’une molécule. Les outils d’exploration de génomes détectent déjà ces usines chez les bactéries et les champignons, mais le véritable défi est de comparer des centaines de milliers de clusters pour comprendre leurs relations et la diversité chimique qu’ils recèlent.
Deux moteurs pour trier les usines moléculaires
BiG-SCAPE et BiG-SLiCE ont été initialement conçus pour regrouper les clusters de gènes ayant des caractéristiques centrales similaires en « familles de clusters de gènes ». Chaque famille est censée produire la même molécule ou des molécules étroitement apparentées. BiG-SCAPE construit des réseaux détaillés de similarités entre clusters, tandis que BiG-SLiCE est optimisé pour la vitesse : il peut traiter des millions de clusters en les transformant en empreintes numériques simples, puis en regroupant ces empreintes. Ensemble, ils soutiennent un écosystème croissant de flux d’analyse de génomes, de bases de données et de visualiseurs interactifs qui aident les chercheurs à naviguer dans la chimie microbienne à l’échelle planétaire.
Quoi de neuf dans BiG-SCAPE 2.0
La version 2.0 de BiG-SCAPE introduit une série d’améliorations visant à la fois la biologie et le calcul. Elle comprend désormais le concept plus fin de « région » utilisé par l’outil antiSMASH largement adopté, qui sépare les clusters qui se chevauchent ou les hybrides en blocs de construction plus petits et plus pertinents appelés protoclusters. De nouveaux modes et stratégies d’alignement permettent à BiG-SCAPE 2.0 de se concentrer sur les gènes centraux réellement importants à l’intérieur de chaque cluster, mieux gérant les réarrangements de gènes et les frontières de cluster floues. Sous le capot, la base de code a été entièrement réécrite pour la vitesse et la maintenabilité, en utilisant une base de données SQLite partagée et une bibliothèque Python moderne pour les recherches de profils. En conséquence, BiG-SCAPE 2.0 peut s’exécuter jusqu’à huit fois plus vite que son prédécesseur, tout en utilisant environ la moitié de la mémoire, et offre désormais plusieurs flux de travail prêts à l’emploi pour le clustering, l’interrogation, la déduplication et le benchmarking des clusters de gènes via une interface web interactive améliorée.

Comment BiG-SLiCE 2.0 suit le déluge de données
BiG-SLiCE 2.0 se concentre sur l’amélioration de la précision des analyses ultra-massives sans perdre sa vitesse caractéristique. Les versions antérieures traitaient tous les types de clusters de la même façon, ce qui favorisait involontairement certaines familles par rapport à d’autres. En passant à une mesure de distance de type cosinus et en mettant à jour sa bibliothèque de signatures protéiques biosynthétiques selon les normes les plus récentes, BiG-SLiCE 2.0 regroupe désormais des types de clusters très différents de manière plus équilibrée. Des optimisations de code et la migration vers la même bibliothèque de recherche de profils rapide que BiG-SCAPE apportent des accélérations supplémentaires, et de nouvelles options d’exportation de tous les résultats sous forme de tableaux texte simples facilitent l’intégration de BiG-SLiCE dans d’autres pipelines d’analyse. Des tests sur neuf jeux de données de familles de gènes annotées manuellement montrent que la précision de BiG-SLiCE 2.0 approche désormais celle de BiG-SCAPE, en particulier pour les clusters de gènes plus courts et plus difficiles à détecter.
Révéler un vaste univers chimique inexploité
Les auteurs ont utilisé les deux outils pour examiner 260 630 régions biosynthétiques issues d’une base de données publique de génomes microbiens. BiG-SCAPE 2.0 et BiG-SLiCE 2.0 ont produit des estimations remarquablement similaires du nombre de familles distinctes de clusters de gènes présentes dans cet ensemble de données, corroborant des travaux antérieurs montrant qu’environ seulement 3 % du potentiel biosynthétique encodé dans les génomes bactériens a été caractérisé à ce jour. Autrement dit, la grande majorité des molécules produites par les microbes reste inconnue. En permettant de regrouper et de visualiser de façon précise des clusters de gènes sur des centaines de milliers — et à terme des millions — de génomes, BiG-SCAPE 2.0 et BiG-SLiCE 2.0 fournissent des lentilles puissantes pour explorer cet univers chimique inexploré, ouvrant la voie à de nouveaux médicaments, à des outils de protection des cultures plus sûrs et à une compréhension approfondie de la façon dont les microbes façonnent les écosystèmes et notre santé.
Citation: Draisma, A., Loureiro, C., Louwen, N.L.L. et al. BiG-SCAPE 2.0 and BiG-SLiCE 2.0: scalable, accurate and interactive sequence clustering of metabolic gene clusters. Nat Commun 17, 2000 (2026). https://doi.org/10.1038/s41467-026-68733-5
Mots-clés: clusters de gènes biosynthétiques, découverte de produits naturels, exploration de génomes, métabolites microbiens, regroupement computationnel