Clear Sky Science · ja

SwarmMAP: 単一細胞シーケンシングデータにおける分散型細胞型注釈のためのスウォーム学習

· 一覧に戻る

将来の医療にとってなぜ重要か

人体の各器官は多様な細胞群で構成されており、近年のシーケンシング技術は個々の細胞の活動を一つずつ読み取れるようになりました。これは疾患の理解を深め、より精密な治療をもたらす可能性があります。しかし、数百万の生の細胞データから信頼できる細胞ラベルを得る作業は遅く、主観が入りやすく、患者データに関する厳しいプライバシー規制によってしばしば妨げられます。本研究はSwarmMAPを紹介します。これは病院や研究所が生データを共有することなく協力できる手法であり、患者を保護しながら大規模で信頼できる細胞マップを作る道を開きます。

Figure 1
Figure 1.

細胞に名前を付けることの困難

現代の単一細胞シーケンシングは、心臓、肺、乳房などの組織から数百万の細胞の遺伝子発現をプロファイルできます。これらのデータを理解するために、研究者は類似した細胞をグループ化し、それぞれに「免疫細胞」や「血管細胞」などのラベルを割り当てます。今日、この工程は主に手作業で行われ、専門家が長い遺伝子リストを検討し、どのマーカーが各細胞型を定義するかを議論します。研究グループごとに基準が異なるため、結果の比較が難しくなります。加えて、患者データは機微情報であるため、すべてを一か所に集約することは法的または倫理的に不可能な場合が多いです。研究者はプライバシーを尊重しつつ、多くの器官や疾患に拡張可能な共有の自動細胞ラベラーを構築する方法を必要としています。

中央ハブではなくスウォーム

SwarmMAPは「スウォーム学習」を用いてこれに対処します。スウォーム学習は複数拠点がデータを移動させることなく共同でモデルを訓練する機械学習の手法です。各病院や研究センターは自分たちの単一細胞データをファイアウォールの内側に保持します。各拠点はローカルでデータを整え、有用な遺伝子を選び、単純なニューラルネットワークを訓練して細胞型を予測します。時折、患者データではなくモデルの数値パラメータだけがブロックチェーン上に構築された共有のデジタル「スウォーム」へ送られます。そこで全参加者のパラメータが平均化され再配布されることで、各拠点は他の拠点が学んだ知見の恩恵を受けます。このプロセスを繰り返すことで、基となる患者データが施設外に出ることなく共通モデルが段階的に改善されます。

スウォームはどれだけ学習できるか

著者らはヒトの心臓、肺、乳房組織からほぼ200万細胞を用いてSwarmMAPを評価し、各器官について4つの別個の研究を利用しました。比較したのは、単一研究での訓練、複数研究を一か所で結合しての訓練、そして分散スウォームでの訓練という三つのシナリオです。性能はモデルが正しい細胞型やより細かな亜型をどれだけ正確に割り当てられるかで測定しました。器官を横断して、スウォームモデルは完全に結合されたデータで訓練したモデルと非常に近い精度を達成し、平均スコアは概ね1点満点中0.9前後でした。つまり、中央のデータ倉庫がなくても品質は実質的に低下しませんでした。また、より多くのデータセットを用いるほど結果が一般に改善され、より幅広い細胞型に対応できるようになったことも示されました。

Figure 2
Figure 2.

手法が苦戦する点

この研究は生物学と機械学習に共通する既知の制約を明らかにしました。すなわち、稀で定義が難しい細胞型は分類が難しいという点です。特定の細胞が少数しか存在しない場合や、その分子署名が他の細胞と強く重なる場合、ローカルモデルもスウォームモデルも誤りやすくなりました。これは一部の特殊な免疫細胞や、複数の系統の特徴を混ぜ持つ「虚血性」心臓細胞などで特に顕著でした。解析は、器官を通じて一般的で良く特徴づけられた細胞型は高い精度でラベル付けされる一方で、希少または曖昧なカテゴリは依然として難しいままであることを確認しました。こうした難しいケースでは、スウォームモデルがローカルで訓練されたモデルよりわずかに劣ることもあり、データ自体が支えられる範囲の限界を反映しています。

将来の細胞アトラスにとっての意味

一般読者に向けた主要なメッセージは、SwarmMAPが敏感な患者データを一か所に集約せずに強力な自動細胞ラベラーを構築できることを示した点です。多くの拠点がプライバシーを保護するスウォーム内で共同訓練することで、研究者はより堅牢で再利用可能な体の細胞マップを作成できます。これらのモデルは既に中央集約型の手法にほぼ匹敵する性能を示しており、データや対象器官が増えるにつれさらに改善される見込みです。稀少で曖昧な細胞型はいまだ明確に分類しにくいものの、SwarmMAPは科学的厳密さと患者プライバシーの両方を尊重する大規模で標準化された細胞アトラスへの実践的な道筋を提供します。

引用: Saldanha, O.L., Goepp, V., Pfeiffer, K. et al. SwarmMAP: swarm learning for decentralized cell type annotation in single cell sequencing data. npj Syst Biol Appl 12, 41 (2026). https://doi.org/10.1038/s41540-026-00667-6

キーワード: 単一細胞シーケンシング, 細胞型注釈, プライバシー保護型AI, 分散学習, システム生物学