Clear Sky Science · ru

BiG-SCAPE 2.0 и BiG-SLiCE 2.0: масштабируемая, точная и интерактивная кластеризация последовательностей метаболических генетических кластеров

· Назад к списку

Скрытые химические сокровища в микробном ДНК

Многие лекарства и средства защиты сельскохозяйственных культур, на которые мы полагаемся, происходят от небольших молекул, произведённых микробами. Эти организмы хранят рецепты таких молекул в участках ДНК, называемых генетическими кластерами. По мере того как секвенирование ДНК стремительно развивается, учёные утопают в данных, но всё ещё знают лишь малую часть того, что могут создавать микробы. В этой статье представлены BiG-SCAPE 2.0 и BiG-SLiCE 2.0 — два обновлённых программных инструмента, которые помогают исследователям просеивать огромные геномные архивы, картировать, сравнивать и организовывать эти скрытые «молекулярные фабрики», приближая открытие следующего поколения антибиотиков и сельскохозяйственных соединений.

Figure 1
Figure 1.

Почему генетические кластеры важны для здравоохранения и сельского хозяйства

Микробы используют специализированные малые молекулы для конкуренции, коммуникации и приспособления к среде. Генетические чертежи для синтеза или разрушения этих молекул часто сгруппированы вместе в метаболических генетических кластерах. Это включает биосинтетические кластеры, которые создают сложные природные продукты, и катаболические кластеры, позволяющие микробам питаться определёнными соединениями или экссудатами корней. Поскольку гены в кластере действуют совместно, обнаружение такого региона в геноме похоже на обнаружение автономной «производственной линии», которая может подсказать структуру и функцию молекулы. Инструменты геномного майнинга уже выявляют такие фабрики у бактерий и грибов, но настоящая задача — сравнить сотни тысяч кластеров, чтобы понять их взаимосвязи и какую химическую разнообразность они могут скрывать.

Два движка для сортировки молекулярных фабрик

BiG-SCAPE и BiG-SLiCE изначально были созданы для группировки генетических кластеров с похожими ключевыми признаками в «семейства генетических кластеров». Ожидается, что каждое такое семейство будет продуцировать одинаковые или близкородственные молекулы. BiG-SCAPE строит подробные сети сходств между кластерами, тогда как BiG-SLiCE оптимизирована для скорости и способна обрабатывать миллионы кластеров, превращая их в простые числовые отпечатки, а затем группируя эти отпечатки. В совокупности они лежат в основе растущей экосистемы конвейеров геномного майнинга, баз данных и интерактивных просмотров, которые помогают исследователям ориентироваться в микробной химии в планетарном масштабе.

Что нового в BiG-SCAPE 2.0

Версия 2.0 BiG-SCAPE включает ряд улучшений, ориентированных как на биологию, так и на вычисления. Теперь инструмент понимает более тонкое понятие «региона», используемое широко применяемым инструментом antiSMASH, который разделяет перекрывающиеся или гибридные генетические кластеры на более мелкие, более информативные строительные блоки — протокластеры. Новые режимы выравнивания и стратегии позволяют BiG-SCAPE 2.0 фокусироваться на действительно важных ключевых генах внутри каждого кластера, лучше справляясь с перестановками генов и размытыми границами кластеров. Под капотом код был полностью переписан ради скорости и устойчивости, с использованием общей базы данных SQLite и современной Python-библиотеки для поисков по профилям. В результате BiG-SCAPE 2.0 может работать до восьми раз быстрее предшественника, потребляя примерно вдвое меньше памяти, и теперь предлагает несколько готовых рабочих процессов для кластеризации, запросов, дедупликации и бенчмаркинга генетических кластеров через обновлённый интерактивный веб-интерфейс.

Figure 2
Figure 2.

Как BiG-SLiCE 2.0 выдерживает наплыв данных

BiG-SLiCE 2.0 сосредоточена на том, чтобы делать чрезвычайно крупные анализы более точными, не теряя характерной скорости. Ранние версии обрабатывали все типы генетических кластеров одинаково, что непреднамеренно давало преимущество некоторым семействам перед другими. Переход на меру расстояния, похожую на косинусную, и обновление библиотеки биосинтетических сигнатур белков до современных стандартов позволили BiG-SLiCE 2.0 теперь более равномерно группировать очень разные типы кластеров. Оптимизации кода и переход на ту же быструю библиотеку для поисков по профилям, что и в BiG-SCAPE, обеспечивают дополнительные ускорения, а новые опции экспорта всех результатов в простые текстовые таблицы упрощают интеграцию BiG-SLiCE в другие аналитические конвейеры. Тесты на девяти наборах данных с вручную курированными семействами генетических кластеров показали, что точность BiG-SLiCE 2.0 теперь приближается к BiG-SCAPE, особенно для коротких и более неуловимых кластеров.

Открытие огромной, неиспользованной химической вселенной

Авторы использовали оба инструмента для анализа 260 630 биосинтетических регионов из публичной базы данных микробных геномов. BiG-SCAPE 2.0 и BiG-SLiCE 2.0 дали поразительно схожие оценки числа различных семейств генетических кластеров в этом наборе данных, что подтверждает предыдущие выводы о том, что охарактеризована лишь около 3% биосинтетического потенциала, закодированного в бактериальных геномах. Другими словами, подавляющее большинство микробных химикатов остаётся неизвестным. Делая возможным точную кластеризацию и визуализацию генетических кластеров в сотнях тысяч — и в перспективе миллионах — геномов, BiG-SCAPE 2.0 и BiG-SLiCE 2.0 предоставляют мощные линзы для исследования этой неизведанной химической вселенной, прокладывая путь к новым лекарствам, более безопасным средствам защиты растений и глубоким пониманиям того, как микробы формируют экосистемы и наше собственное здоровье.

Цитирование: Draisma, A., Loureiro, C., Louwen, N.L.L. et al. BiG-SCAPE 2.0 and BiG-SLiCE 2.0: scalable, accurate and interactive sequence clustering of metabolic gene clusters. Nat Commun 17, 2000 (2026). https://doi.org/10.1038/s41467-026-68733-5

Ключевые слова: биосинтетические генетические кластеры, открытие природных продуктов, геномный майнинг, микробные метаболиты, вычислительное кластеризирование