Clear Sky Science · ja
BRAKERによる200種の昆虫ゲノム注釈——種間比較のための標準化
なぜ昆虫ゲノムが重要か
昆虫は世界を形作る存在です:作物を受粉し、病気を媒介し、栄養素を循環させ、新素材や技術の着想源にもなります。現在では何千もの昆虫種のDNAを読み取ることができますが、ゲノム配列があるだけでは不十分です。各遺伝子がどこにあり、どのような機能を持つ可能性があるかという明確な地図が必要です。本稿は、VARUS-BRAKERと呼ばれる自動化ワークフローを用いて200種の昆虫の遺伝子注釈を標準化して行った大規模な取り組みを紹介します。これにより研究者が種間で比較を行い、昆虫が多様性を獲得してきた過程を明らかにしやすくなります。
未完成の遺伝地図がもたらす問題
過去20年で、昆虫ゲノムの塩基配列決定は約20種から4000種以上へと急増しました。それでも公的データベースで適切な遺伝子注釈が付与されているのはおよそ10分の1にすぎません。注釈が存在していても、多くは数年前の古い手法や限定的なデータで作られたものです。研究グループごとに異なるソフトウェアや証拠データを用いた結果、人工的な差異が生じることがあります:ある種では遺伝子が欠けて見えたり形が異なって見えたりするのは、単に別のツールで注釈したためかもしれません。こうした方法の継ぎはぎは、種間で遺伝子が本当にどう異なるかを判断する際にリスクを伴います。

多種に対応するワンボタン・ワークフロー
著者らは、このボトルネックに対処するため、BRAKER3遺伝子予測パイプラインを中心に据えた自動化ワークフローを構築しました。VARUS-BRAKERシステムは、最も簡単なモードではユーザーが与えるのは種の学名だけで済むよう設計されています。ワークフローは自動的に公的アーカイブから利用可能な最良のゲノムを取得し、どの遺伝子が発現しているかを示す対応するRNAシーケンスデータを収集し、関連種からのタンパク質情報も取り込みます。反復配列をマスクし、RNAリードをゲノムにアラインし、RNAとタンパク質の「手がかり」を組み合わせて遺伝子の開始・終了・スプライシング位置をモデルに学習させます。BUSCOやOMArkといった品質評価で、得られた遺伝子セットの完全性や精度もチェックします。
昆虫系統全体を横断する広範な調査
このシステムを使い、チームは昆虫系統樹の主要な枝をカバーするよう選んだ200種のゲノムに注釈を付けました。特に完全変態を行うホロメタボラ昆虫に重点を置きつつ、多様な近縁群も含めています。サンプルは77科、14目に及び、ハエ、チョウ、コウチュウ類、ハチ、アリ、アブラムシ、ゴキブリなどが含まれます。これらのうち85種はGenBankに注釈が存在しませんでした。各種についてワークフローはタンパク質をコードする遺伝子を予測し、合計で420万以上のタンパク質配列が得られました。ほとんどのゲノムと予測プロテオームは厳格な完全性評価をクリアし、期待されるコア遺伝子の85~95%以上を満たすことが多く、自動化アプローチでも高品質な結果が得られることを示しています。

遺伝子リストから生物学的意味へ
遺伝子の一覧化は物語の一部にすぎません。研究者は各遺伝子がどんな機能を持つかの手がかりも必要とします。そのため著者らはFANTASIAと呼ばれる機能注釈パイプラインを適用しました。FANTASIAは最新のタンパク質言語モデルを使い、各タンパク質にGene Ontology(GO)用語という標準化された生物学的役割ラベルを割り当てます。広く使われるInterProScanと比べると、FANTASIAはおよそ1.6倍のタンパク質に注釈を付与し、両者が予測を出した場合には概ね高い一致を示しました。チームはまた関連する遺伝子を「オルソグループ」としてまとめ、共通祖先を持つ遺伝子群を定義し、これを用いて200種の進化系統樹を構築しました。この枠組みにより、どの遺伝子が共有され、失われ、あるいは増幅したかを系統ごとに問うことができ、変態や幼虫行動といった形質と遺伝子レパートリーを結びつけることが可能になります。
未来の発見に再利用できる資源
本プロジェクトの全データ――遺伝子構造、タンパク質配列、機能ラベル、オルソグループ、種の系統樹、tRNA予測など――は公的リポジトリを通じて自由に利用できます。著者らはまた、VARUS-BRAKERワークフローの全コードをオープンソースとして公開しているため、他の研究者は新たな昆虫ゲノム、さらには動植物のゲノムにも一貫した方法で注釈を付けることができます。専門外の読者に向けた重要な結論は、本研究が散在するDNA配列の集合を、一貫性のある比較可能な昆虫遺伝子のアトラスへと変換したことです。こうした標準化された地図があれば、今後の研究は昆虫が飛行や変態、そして生態学的成功をどのように進化させてきたかをより確実に解明でき、農業、保全、病害対策に関連する遺伝子の標的化も進むでしょう。
引用: Saenko, S., Hoff, K.J. & Stanke, M. Annotation of 200 Insect Genomes with BRAKER for Consistent Comparisons across Species. Sci Data 13, 288 (2026). https://doi.org/10.1038/s41597-026-06840-0
キーワード: 昆虫ゲノミクス, ゲノム注釈, 比較ゲノミクス, 進化生物学, バイオインフォマティクス