Clear Sky Science · ja
次世代シーケンシング試料で近縁種を正確に識別するためのゲノムアプローチ
農場とその先における重要性
現代のDNAシーケンシングは動物の遺伝コードを驚くほど詳細に読み取れますが、強力な計算機でさえ意外に基本的な問いに苦しむことがあります:この配列は羊のものか山羊のものか? 農家、育種家、保全関係者、研究者にとって、大規模なDNAデータセットで種が取り違えられると、健康性、生産性、進化に関する研究が頓挫する恐れがあります。本論文は、羊と山羊で実証したように、DNAのあらゆる微差を見るのではなく、種特異的なバーコードのように振る舞うごく一握りの領域に注目することで、近縁種を区別する単純だが巧妙な方法を紹介します。

似通ったDNAが抱える問題
羊と山羊は多くの遺伝設計を共有しているため、片方から得られた短いDNA断片がしばしばもう片方の参照ゲノムにもほぼ同じように当てはまります。著者らは既知の個体40頭(羊20頭、山羊20頭)からの全ゲノムシーケンスデータを解析し、それぞれ数億のリードを持っていました。リードを参照ゲノムにマッピングする標準的なツールを用いると、両種のDNAは羊と山羊の参照双方に非常によく整列しました。整列率、カバレッジ深度、誤差指標はいずれも非常に類似しており大きく重なっていたため、これらの日常的な統計だけではサンプルがどの種由来かを確信を持って判断することはほぼ不可能でした。
標準的なDNA分類器が不十分な理由
研究チームは、各リードを系統樹上の位置に割り当てようとする人気プログラム Kraken2 も検証しました。包括的なデータベースを用いても、羊と山羊のリードは主に同じ大きな動物群に分類され、数値上の差はわずかでした。これらの割り当てを可視化すると、両種の大部分のリードが同じ属に集約され、両者および他の哺乳類と共有するDNAの多さを反映していました。実際には、こうした境界のあいまいさがあるため、従来の分類ツールは「羊」とラベル付けされたデータセットが本当に羊由来か、あるいは誤ラベルのサンプルを簡単に検出できるかについて研究者を誤解させる可能性があります。
欠けたカバレッジを種のバーコードに変える
リードが参照にどれだけ合うかではなく、著者らは問いを反転させました:どこで合わないか? 彼らは訓練用の30個体(羊15、山羊15)を両方の参照ゲノムに整列させ、オン・オフの明確なパターンを示す領域を走査しました。例えば「山羊特異領域」は、山羊サンプルが山羊ゲノムに整列したときにその位置で一貫して通常のカバレッジを示し、同じ位置で羊サンプルがほとんどカバレッジを示さない場合に該当します。厳格なカットオフを用いたこの探索で、山羊では15万以上、羊では170万を超える候補領域が得られました。より長く、きれいに分離した連続領域に注目して手動で精査した結果、各種につきわずか10個の高信頼領域、つまり一方の種が確実に“点灯”しもう一方が“暗い”短いDNA領域に絞り込まれました。

未知のサンプルのための簡単な検査
こうして得られた20領域を使い、著者らはラベルのないDNAデータセット向けの単純な検査手順を設計しました。まず、リードを羊と山羊それぞれの参照ゲノムに整列させます。次に、羊ゲノム上の10個の羊特異領域と山羊ゲノム上の10個の山羊特異領域内にどれだけのカバレッジ(リードの積み重なり)があるかを測定します。羊領域で強いカバレッジが観察され、山羊領域がほとんど空であればサンプルは羊、逆であれば山羊と判定します。異なるシーケンサーや化学的に修飾されたDNAを含む公開データを含む14の独立した検証サンプルに適用したところ、このパターンに基づく検査は対象の全サンプルを正しく識別し、研究対象セットでは100%の精度を達成しました。
新たなツールと今後の応用
羊と山羊の研究における実用的な問題を解決したことに加え、本研究は他の近縁種の対や群にも適用可能な一般的な設計図を提供します。精選された領域は、これらの種特異的領域だけを増幅する迅速な実験室用検査から、古いシーケンスデータセットの誤ラベルを自動的に検出するソフトウェアまで、将来のツールの構成要素となり得ます。手法は複数の参照ゲノムへの整列を必要とし、計算時間やストレージを要するものの、従来のアプローチの多くの落とし穴を回避し、品種やシーケンスプラットフォームの違いに対しても堅牢です。日常的な言い方をすれば、著者らはごく少数の注意深く選ばれたDNAのランドマークが、大きく複雑なアルゴリズムが誤りがちな問いに対して明確で信頼できる答えを与え得ることを示しました:これはどの動物か?
引用: dain Marzouka, N.a., Al-Aamri, A., Alshamsi, F. et al. A genomic approach for accurate identification of closely related species with next-generation sequencing samples. Sci Rep 16, 11329 (2026). https://doi.org/10.1038/s41598-026-41497-0
キーワード: 種の同定, 全ゲノムシーケンス, 羊と山羊, 比較ゲノミクス, 動物遺伝学