Clear Sky Science · ja

CAMEXによる単一細胞RNA-seqデータの多種間統合、整列、および注釈付け

· 一覧に戻る

この研究が重要な理由

動物の体は多様な細胞型で構成されていますが、これらの細胞が種をまたいでどのように対応するか、進化の過程でどのように変化したかについての明確な地図はまだ不十分です。本研究はCAMEXという計算ツールを紹介します。CAMEXは異なる動物種からの単一細胞遺伝子発現データをつなぎ合わせ、共通の図として再構築します。一般読者にとって重要なのは、これによりどの細胞型が普遍的なのか、人間に特有のものは何か、脳や肝臓、精巣といった臓器が進化の過程でどのように形成されたかといった疑問に近づける点です。

Figure 1
Figure 1.

細胞をひとつずつ見る

現代の単一細胞RNAシーケンシングにより、数千から数百万の個々の細胞でどの遺伝子が活性化しているかを読み取れます。これらのパターンを比較することで、研究者は細胞を型に分類し、その発生や分化の過程を追跡できます。ヒト、サル、マウス、魚、爬虫類など、多くの種に関するデータセットが蓄積されていますが、研究ごとに実験技術が異なること、種ごとに遺伝子セットが異なることがしばしばあります。加えて、遺伝子注釈の知識も不均一で、実験室でよく研究されているモデル生物は注釈が充実している一方で、あまり知られていない種は情報が乏しい。これらの違いは“バッチ効果”や不完全な辞書のように働き、種を越えて類似した細胞を整列させ、どの特徴が真に共有されているのか種特異的なのかを見分けるのを難しくします。

種をつなぐグラフベースの手法

CAMEXは、すべてのデータを細胞と遺伝子の両方を含む大きなネットワークに変換することでこれらの障害に対処します。このネットワークでは、細胞は発現する遺伝子や最も類似した隣接細胞とつながり、遺伝子同士は進化的に関連があると判断された場合に種を越えてリンクします。この関連は一対一に限らず多対多であることもあります。異種混合グラフニューラルネットワークという特殊な機械学習モデルがこれらの接続に沿って情報を伝搬させ、すべての細胞と遺伝子に対して共有の低次元空間でのコンパクトな“埋め込み”を学習します。データ統合のために、モデルはネットワーク構造と元の遺伝子発現パターンの両方を再構築するように訓練され、事前に細胞型を教えられることはありません。細胞注釈のためには、同じエンコーダーが注意機構を持つ分類器に接続され、参照種から注釈ラベルをあまり研究されていない種へ転送できます。

共有される細胞型と発生過程の解明

著者らは、CAMEXが厳しい実データセットに対して人気のあるツール群を上回る性能を示すことを示しています。肝臓、卵巣、膵臓のデータで最大4種、複数の実験プラットフォームにまたがる場合でも、CAMEXは人工的なバッチ差を取り除きつつ細胞型間の真の生物学的差異を保持するという相反する2つの目標を最もよく両立させました。肝細胞や免疫細胞といった一般的な細胞群を正確に整列させ、特に他の方法がぼかしがちな希少な細胞型も保持しました。劇的なテストとして、CAMEXはサルからカモノハシやニワトリに至る11種の精巣データを統合しました。そこで、germ細胞が精子へ成熟する連続的な経路を再現し、種が遠くなるほど多対多の遺伝子関係を用いることが性能維持に重要であることを示しました。モデルはまた、7種にわたる器官の発生段階を整列することにも成功し、古典的なCarnegie発生段階の概念を、当初定義された限られたモデル生物群を超えて拡張しました。

Figure 2
Figure 2.

種特異的な細胞と遺伝子モジュールの発見

CAMEXは細胞と遺伝子の両方の埋め込みを学習するため、共有特徴だけでなく特有の特徴も強調できます。ヒト、マウス、トカゲ、カメを含む脳データでは、CAMEXはデータを統合し、ヒトのラベルを手がかりとして与えると、カメの脳ペリサイトなどの小さなサブグループを含め、他の種の細胞型を正確に注釈しました。霊長類の背外側前頭前野の詳細な地図に適用したところ、著者らはヒトにのみ存在する、あるいはチンパンジーと共有される特定のミクログリア(脳の免疫細胞)亜型を同定できました。遺伝子埋め込みをクラスタリングすることで、精巣の体細胞支持細胞で活性化するモジュールや、減数分裂(精子を生み出す細胞分裂過程)に結びつくモジュールなど、主要な機能に関連する遺伝子群も見つけました。これらの結果は、保存されたプログラムと種特異的な微調整の両方を示唆しています。

より大きな意義

平たく言えば、CAMEXは生命の樹を越えて単一細胞データを“翻訳”する強力な新しいエンジンです。異なる動物の細胞が本質的に同じ役割を果たしているとき、いつ分岐したのか、発生の時間軸が種ごとにどう比較できるかを可視化する助けになります。手法には既存のホモロジー(相同性)マップへの依存やグラフベースモデルの解釈に伴う一般的な課題など制限もありますが、すでに以前より豊かな進化比較を可能にしています。将来的には、CAMEXのようなツールが真の「細胞型の生命の樹」を構築し、器官発生のモデルを精緻化し、ヒトおよび動物モデルにおける疾患関連細胞型や薬剤標的の探索を導く助けとなるでしょう。

引用: Guo, ZH., Huang, DS. & Zhang, S. Multi-species integration, alignment and annotation of single-cell RNA-seq data with CAMEX. Nat Commun 17, 3017 (2026). https://doi.org/10.1038/s41467-026-69696-3

キーワード: 単一細胞RNAシーケンシング, 種間統合, グラフニューラルネットワーク, 細胞型の進化, 比較ゲノミクス