Clear Sky Science · ja

BiG-SCAPE 2.0 と BiG-SLiCE 2.0:スケーラブルで高精度、対話的な代謝遺伝子クラスターの配列クラスタリング

· 一覧に戻る

微生物のDNAに隠された化学的宝庫

私たちが使う多くの医薬品や作物保護剤は、微生物が作る小さな分子に由来します。これらの生物は、そうした分子の「レシピ」を遺伝子クラスターと呼ばれるDNAの連続領域に隠しています。DNAシーケンシングが急速に進む中、研究者はデータの海に溺れつつも、微生物が作り出せるもののごく一部しか把握していません。この記事では、膨大なゲノムアーカイブをふるいにかけ、これらの隠れた「分子工場」をマップ化・比較・整理するのに役立つ、2つの改良版ソフトウェア、BiG-SCAPE 2.0 と BiG-SLiCE 2.0 を紹介します。これらは次世代の抗生物質や農業用化合物の発見を前進させます。

Figure 1
Figure 1.

健康と農業における遺伝子クラスターの重要性

微生物は、競争、コミュニケーション、環境への適応のために特殊な小分子を使います。これらの分子を合成したり分解したりする青写真を示す遺伝子は、代謝遺伝子クラスターとしてまとまって存在することが多いです。そこには複雑な天然物を合成する二次代謝遺伝子クラスターや、特定の化合物や根の分泌物を分解して利用する分解(カタボリック)クラスターが含まれます。クラスター内の遺伝子は協調して働くため、ゲノム上でそのような領域を見つけることは、分子の構造や機能を示唆する「自己完結型の工場ライン」を発見するようなものです。既存のゲノムマイニングツールは細菌や真菌でこうした工場を検出しますが、本当の課題は何十万ものクラスターを比較して、それらがどのように関連し、どんな化学的多様性を秘めているかを明らかにすることです。

分子工場を分類するための二つのエンジン

BiG-SCAPE と BiG-SLiCE は元々、コアの特徴が似た遺伝子クラスターを「遺伝子クラスター・ファミリー」にまとめるために作られました。各ファミリーは同じか近縁の分子を産生すると期待されます。BiG-SCAPE はクラスター間の類似性を詳しいネットワークとして構築する一方、BiG-SLiCE はスピード重視で設計されており、クラスターを単純な数値フィンガープリントに変換してからそれらをクラスタリングすることで数百万件の処理に対応します。両者は協働して、ゲノムマイニングのパイプライン、データベース、対話型ビューアのエコシステムを支え、研究者が惑星規模の微生物化学を探索するのを助けます。

BiG-SCAPE 2.0 の新機能

BiG-SCAPE の 2.0 版は、生物学的な観点と計算面の両方に向けた一連の改良を導入しています。広く使われる antiSMASH ツールが採用する、より精緻な「リージョン」概念を理解するようになり、重複やハイブリッドな遺伝子クラスターを小さく意味のある構成要素(プロトクラスター)に分けて扱えます。新しいアラインメントモードや戦略により、各クラスター内の真に重要なコア遺伝子に焦点を当て、遺伝子の再配置やあいまいなクラスター境界にもよりよく対処できます。内部ではコードベースが全面的に書き直され、高速かつ持続可能な設計になっており、共有 SQLite データベースとプロファイル検索のための最新の Python ライブラリを採用しています。その結果、BiG-SCAPE 2.0 は前バージョンより最大で約8倍高速になり、メモリ使用量は約半分となり、クラスタリング、照会、重複排除、ベンチマークを行うための複数の既成ワークフローを、改良された対話型ウェブインターフェースを通じて提供します。

Figure 2
Figure 2.

データ洪水に対応する BiG-SLiCE 2.0 の工夫

BiG-SLiCE 2.0 は、特有の高速性を失うことなく超大規模解析の精度を高めることに焦点を当てています。以前のバージョンではすべての遺伝子クラスター型を同一視していたため、意図せず一部のファミリーが有利になることがありました。コサイン類似に近い距離測定への切り替えと、二次代謝タンパク質シグネチャのライブラリを最新基準に更新することで、BiG-SLiCE 2.0 は非常に異なる種類のクラスターをより均等にグループ化できるようになりました。コードの最適化と、BiG-SCAPE と同じ高速プロファイル検索ライブラリへの移行が追加の高速化をもたらし、結果を単純なテキスト表としてエクスポートする新オプションにより、他の解析パイプラインへの組み込みが容易になりました。手作業で精査された九つのデータセットとの比較試験では、BiG-SLiCE 2.0 の精度は特に短く検出が難しいクラスターに対して、現在では BiG-SCAPE に近づいていることが示されました。

広大で未開拓の化学の世界を明らかにする

著者らは両ツールを用いて、公開の微生物ゲノムデータベースから 260,630 の二次代謝リージョンを解析しました。BiG-SCAPE 2.0 と BiG-SLiCE 2.0 は、このデータセットに存在する異なる遺伝子クラスター・ファミリーの数について驚くほど似た推定を示し、細菌ゲノムにコードされた二次代謝の潜在力のうち約3%しかこれまでに特徴付けられていないという以前の研究を支持しました。言い換えれば、微生物が作る化学物質の圧倒的多数は未解明のままです。何十万、やがては何百万ものゲノムにわたって正確にクラスター化し可視化できるようにすることで、BiG-SCAPE 2.0 と BiG-SLiCE 2.0 はこの未踏の化学宇宙を探る強力なレンズを提供し、新薬やより安全な作物防除技術の発見、そして微生物が生態系や私たちの健康に与える影響に関するより深い理解への道を開きます。

引用: Draisma, A., Loureiro, C., Louwen, N.L.L. et al. BiG-SCAPE 2.0 and BiG-SLiCE 2.0: scalable, accurate and interactive sequence clustering of metabolic gene clusters. Nat Commun 17, 2000 (2026). https://doi.org/10.1038/s41467-026-68733-5

キーワード: 二次代謝遺伝子クラスター, 天然物探索, ゲノムマイニング, 微生物代謝物, 計算クラスタリング