Clear Sky Science · pl
BiG-SCAPE 2.0 i BiG-SLiCE 2.0: skalowalne, dokładne i interaktywne grupowanie sekwencji klastrów genów metabolicznych
Ukryte chemiczne skarby w DNA mikroorganizmów
Wiele leków i środków ochrony roślin, na których polegamy, pochodzi z drobnych cząsteczek wytwarzanych przez mikroby. Organizmy te ukrywają przepisy na takie cząsteczki w fragmentach DNA zwanych klastrami genów. Wraz z błyskawicznym postępem sekwencjonowania DNA naukowcy toną w danych, a wciąż znają jedynie niewielką część tego, co mikroby potrafią wytworzyć. Ten artykuł przedstawia BiG-SCAPE 2.0 i BiG-SLiCE 2.0 — dwa zaktualizowane narzędzia programowe, które pomagają naukowcom przesiać ogromne archiwa genomowe, mapować, porównywać i porządkować te ukryte „molekularne fabryki”, przybliżając odkrycie kolejnej generacji antybiotyków i związków rolniczych.

Dlaczego klastry genów mają znaczenie dla zdrowia i rolnictwa
Mikroby wykorzystują wyspecjalizowane małe cząsteczki do rywalizacji, komunikacji i adaptacji do otoczenia. Plany w DNA do wytwarzania lub rozkładu tych związków często są zgrupowane w metabolicznych klastrach genów. Należą do nich biosyntetyczne klastry genów, które budują złożone naturalne produkty, oraz kataboliczne klastry genów, które pozwalają mikrobom wykorzystywać określone związki lub eksudaty korzeniowe jako pożywienie. Ponieważ geny w klastrze działają razem, znalezienie takiego regionu w genomie jest jak dostrzeżenie samodzielnej „linii produkcyjnej”, która może sugerować strukturę i funkcję cząsteczki. Narzędzia do eksploracji genomów już wykrywają takie fabryki u bakterii i grzybów, lecz prawdziwe wyzwanie polega na porównaniu setek tysięcy klastrów, aby ustalić, jak są powiązane i jaką różnorodność chemiczną mogą kryć.
Dwa silniki do sortowania molekularnych fabryk
BiG-SCAPE i BiG-SLiCE zostały pierwotnie stworzone, by grupować klastry genów o podobnych cechach rdzeniowych w „rodziny klastrów genów”. Oczekuje się, że każda rodzina będzie produkować te same lub blisko spokrewnione cząsteczki. BiG-SCAPE buduje szczegółowe sieci podobieństw między klastrami, podczas gdy BiG-SLiCE jest zoptymalizowane pod kątem szybkości, zdolne obsłużyć miliony klastrów przez zamianę ich na proste numeryczne odciski i następnie klastrowanie tych odcisków. Razem stanowią podstawę rozwijającego się ekosystemu pipeline’ów do eksploracji genomów, baz danych i interaktywnych przeglądarek, które pomagają badaczom poruszać się po mikrobiologicznej chemii na skalę planetarną.
Co nowego w BiG-SCAPE 2.0
Wersja 2.0 BiG-SCAPE wprowadza szereg usprawnień skierowanych zarówno do biologii, jak i do obliczeń. Teraz rozumie bardziej precyzyjną koncepcję „regionu” stosowaną przez szeroko przyjęte narzędzie antiSMASH, które rozdziela nakładające się lub hybrydowe klastry genów na mniejsze, bardziej sensowne elementy zwane protoklastrami. Nowe tryby wyrównywania i strategie pozwalają BiG-SCAPE 2.0 skupić się na naprawdę istotnych genach rdzeniowych w każdym klastrze, lepiej radząc sobie z przemieszczonymi genami i nieostrymi granicami klastrów. Pod maską kod został zupełnie przepisany z myślą o szybkości i trwałości, z użyciem współdzielanej bazy SQLite i nowoczesnej biblioteki Pythona do wyszukiwań profili. W efekcie BiG-SCAPE 2.0 może działać do ośmiu razy szybciej niż jego poprzednik, przy zużyciu pamięci mniejszym o około połowę, a także oferuje kilka gotowych workflowów do klastrowania, zapytań, deduplikacji i benchmarkingu klastrów genów przez zmodernizowany interaktywny interfejs sieciowy.

Jak BiG-SLiCE 2.0 nadąża za falą danych
BiG-SLiCE 2.0 koncentruje się na uczynieniu ultra-wielkich analiz bardziej dokładnymi bez utraty charakterystycznej szybkości. Wcześniejsze wersje traktowały wszystkie typy klastrów genów jednakowo, co niezamierzenie faworyzowało niektóre rodziny kosztem innych. Przechodząc na miarę odległości przypominającą kosinus i aktualizując bibliotekę biosyntetycznych sygnatur białkowych do najnowszych standardów, BiG-SLiCE 2.0 teraz grupuje znacznie różne rodzaje klastrów bardziej równomiernie. Optymalizacje kodu i przejście na tę samą szybką bibliotekę wyszukiwania profili co BiG-SCAPE przynoszą dodatkowe przyspieszenia, a nowe opcje eksportu wszystkich wyników jako prostych tabel tekstowych ułatwiają włączenie BiG-SLiCE do innych pipeline’ów analitycznych. Testy przeprowadzone na dziewięciu zestawach danych ręcznie zrekonstruowanych rodzin genów pokazują, że dokładność BiG-SLiCE 2.0 zbliża się teraz do tej oferowanej przez BiG-SCAPE, szczególnie dla krótszych i trudniejszych do wykrycia klastrów genów.
Odkrywanie ogromnego, niewykorzystanego wszechświata chemicznego
Autorzy wykorzystali oba narzędzia do analizy 260 630 regionów biosyntetycznych z publicznej bazy genomów mikroorganizmów. BiG-SCAPE 2.0 i BiG-SLiCE 2.0 wygenerowały zadziwiająco podobne szacunki liczby odrębnych rodzin klastrów genów w tym zbiorze, potwierdzając wcześniejsze prace, że zaledwie około 3% potencjału biosyntetycznego zakodowanego w genomach bakterii zostało jak dotąd scharakteryzowane. Innymi słowy, przytłaczająca większość chemikaliów produkowanych przez mikroby pozostaje nieznana. Dzięki możliwości dokładnego klastrowania i wizualizacji klastrów genów w setkach tysięcy — a w przyszłości milionach — genomów, BiG-SCAPE 2.0 i BiG-SLiCE 2.0 dostarczają potężnych narzędzi do eksploracji tego nieodkrytego wszechświata chemicznego, torując drogę do nowych leków, bezpieczniejszych środków ochrony roślin i głębszego zrozumienia, jak mikroby kształtują ekosystemy i nasze własne zdrowie.
Cytowanie: Draisma, A., Loureiro, C., Louwen, N.L.L. et al. BiG-SCAPE 2.0 and BiG-SLiCE 2.0: scalable, accurate and interactive sequence clustering of metabolic gene clusters. Nat Commun 17, 2000 (2026). https://doi.org/10.1038/s41467-026-68733-5
Słowa kluczowe: sklastery genów biosyntetycznych, odkrywanie naturalnych produktów, eksploracja genomu, metabolity mikrobiologiczne, klastrowanie obliczeniowe