Clear Sky Science · it
BiG-SCAPE 2.0 e BiG-SLiCE 2.0: clustering sequenziale scalabile, accurata e interattiva di cluster genici metabolici
Tesori chimici nascosti nel DNA microbico
Molti dei farmaci e degli agenti per la protezione delle colture di cui ci serviamo derivano da piccole molecole prodotte dai microbi. Questi organismi nascondono le “ricette” per tali molecole in tratti di DNA chiamati cluster genici. Con l’avanzare rapido del sequenziamento del DNA, i ricercatori sono sommersi dai dati, ma conoscono ancora solo una piccola parte di ciò che i microbi possono produrre. Questo articolo presenta BiG-SCAPE 2.0 e BiG-SLiCE 2.0, due strumenti software aggiornati che aiutano gli scienziati a setacciare vasti archivi genomici per mappare, confrontare e organizzare queste «fabbriche molecolari» nascoste, avvicinando la prossima generazione di antibiotici e composti agricoli alla scoperta.

Perché i cluster genici sono importanti per salute e agricoltura
I microbi usano piccole molecole specializzate per competere, comunicare e adattarsi all’ambiente. I progetti genetici per produrre o degradare queste molecole sono spesso raggruppati in cluster genici metabolici. Questi comprendono cluster genici biosintetici che costruiscono prodotti naturali complessi e cluster genici catabolici che permettono ai microbi di nutrirsi di composti particolari o di essudati radicali. Poiché i geni in un cluster agiscono insieme, trovare una di queste regioni in un genoma è come individuare una «linea di produzione» autosufficiente che può suggerire la struttura e la funzione di una molecola. Gli strumenti di genome mining già rilevano tali fabbriche in batteri e funghi, ma la sfida vera è confrontare centinaia di migliaia di cluster per capire come sono correlati e quale diversità chimica potrebbero contenere.
Due motori per ordinare le fabbriche molecolari
BiG-SCAPE e BiG-SLiCE sono nati per raggruppare cluster genici con caratteristiche core simili in “famiglie di cluster genici”. Ogni famiglia è prevista produrre la stessa molecola o molecole strettamente correlate. BiG-SCAPE costruisce reti dettagliate di somiglianze tra cluster, mentre BiG-SLiCE è ottimizzato per la velocità, capace di gestire milioni di cluster trasformandoli in semplici impronte numeriche e quindi raggruppando queste impronte. Insieme sostengono un ecosistema in crescita di pipeline di genome mining, database e visualizzatori interattivi che aiutano i ricercatori a navigare la chimica microbica a scala planetaria.
Novità in BiG-SCAPE 2.0
La versione 2.0 di BiG-SCAPE introduce una serie di miglioramenti rivolti sia alla biologia sia al calcolo. Ora comprende il concetto più raffinato di “regione” usato dall’ampio tool antiSMASH, che separa cluster sovrapposti o ibridi in blocchi più piccoli e significativi chiamati protocluster. Nuove modalità e strategie di allineamento permettono a BiG-SCAPE 2.0 di focalizzarsi sui geni core veramente importanti all’interno di ciascun cluster, gestendo meglio geni riorganizzati e confini di cluster sfumati. Sotto il cofano, il codice è stato completamente riscritto per velocità e sostenibilità, usando un database SQLite condiviso e una moderna libreria Python per ricerche basate su profili. Di conseguenza, BiG-SCAPE 2.0 può funzionare fino a otto volte più velocemente del predecessore, usando circa la metà della memoria, e offre ora diversi workflow pronti all’uso per clustering, interrogazione, de-duplicazione e benchmark di cluster genici tramite un’interfaccia web interattiva migliorata.

Come BiG-SLiCE 2.0 regge l’ondata di dati
BiG-SLiCE 2.0 si concentra sul rendere le analisi ultra-ampie più accurate senza perdere la caratteristica velocità. Le versioni precedenti trattavano tutti i tipi di cluster genici allo stesso modo, il che favoriva involontariamente alcune famiglie rispetto ad altre. Passando a una misura di distanza simile al coseno e aggiornando la sua libreria di firme proteiche biosintetiche agli standard più recenti, BiG-SLiCE 2.0 ora raggruppa tipi molto diversi di cluster in modo più equilibrato. Ottimizzazioni del codice e la migrazione alla stessa libreria di ricerca per profili veloce usata da BiG-SCAPE portano ulteriori accelerazioni, e nuove opzioni per esportare tutti i risultati come semplici tabelle di testo rendono più facile integrare BiG-SLiCE in altre pipeline di analisi. Test su nove dataset di famiglie geniche curate manualmente mostrano che l’accuratezza di BiG-SLiCE 2.0 si avvicina ora a quella di BiG-SCAPE, specialmente per cluster genici più corti e più difficili da identificare.
Rivelare un vasto universo chimico ancora inesplorato
Gli autori hanno usato entrambi gli strumenti per esaminare 260.630 regioni biosintetiche tratte da un database pubblico di genomi microbici. BiG-SCAPE 2.0 e BiG-SLiCE 2.0 hanno prodotto stime sorprendentemente simili sul numero di famiglie distinte di cluster genici presenti in questo dataset, confermando lavori precedenti secondo cui solo circa il 3% del potenziale biosintetico codificato nei genomi batterici è stato finora caratterizzato. In altre parole, la stragrande maggioranza delle molecole prodotte dai microbi resta sconosciuta. Rendendo possibile clusterizzare e visualizzare accuratamente cluster genici attraverso centinaia di migliaia di genomi—e in futuro milioni—BiG-SCAPE 2.0 e BiG-SLiCE 2.0 forniscono lenti potenti per esplorare questo universo chimico inesplorato, aprendo la strada a nuovi farmaci, a strumenti di protezione delle colture più sicuri e a approfondimenti sul modo in cui i microbi plasmano gli ecosistemi e la nostra salute.
Citazione: Draisma, A., Loureiro, C., Louwen, N.L.L. et al. BiG-SCAPE 2.0 and BiG-SLiCE 2.0: scalable, accurate and interactive sequence clustering of metabolic gene clusters. Nat Commun 17, 2000 (2026). https://doi.org/10.1038/s41467-026-68733-5
Parole chiave: cluster genici biosintetici, scoperta di prodotti naturali, genome mining, metaboliti microbici, clustering computazionale