Clear Sky Science · ja

部分的に共有されたマルチモーダル埋め込みが細胞状態の全体的表現を学習する

2026-02-25 · 一覧に戻る

この研究が重要な理由

私たちの体の中の各細胞は小さな宇宙のようであり、現代の手法は遺伝子解析、DNAのパッケージングの可視化、タンパク質のイメージングなど、さまざまな角度からその宇宙を同時に観察できるようになりました。しかし、多くの計算手法はこれらの視点を混ぜ合わせてしまい、どの測定がどの洞察に寄与しているかを識別しにくくしています。本稿が紹介するAPOLLOは、多様な細胞データを統合しつつ、測定間で共有される情報と各モダリティ固有の情報を区別して扱う新しい方法を提示し、より明瞭で全体的な細胞の振る舞い像を提供します。

多様なレンズで細胞を観る

現在の生物学では、同一細胞から複数種類の情報を取得するのが一般的です：どの遺伝子が発現しているか、DNAがどれだけ凝縮しているか、表面を飾るタンパク質は何か、特定のタンパク質が細胞内のどこにあるかなど。各モダリティは真の細胞状態の一部しか捉えません。広い意味での細胞型のような側面は全てのモダリティに現れる一方で、微細なクロマチンの構造や特定タンパク質の局在といった要素は一つのモダリティにしか現れないことがあります。既存の計算手法は各モダリティを個別に解析するか、あるいは一つの混合された表現に融合してしまいますが、どちらの場合もどの特徴がどの測定由来なのかを特定したり、欠損した測定が何を示したかを予測したりするのが難しいという問題があります。

共有信号と固有信号の新しい地図

APOLLOは各細胞の内部表現を構造化されたマップとして学習することでこの問題に対処します。一つの画一的な要約を使う代わりに、情報を三つの部分に分割します：異なる測定間で共通する情報を反映する共有成分と、それぞれのデータ型に固有の情報をとらえる二つのモダリティ固有成分です。内部的にはAPOLLOはオートエンコーダと呼ばれる一群のニューラルネットワークを用います。第一の訓練段階では、各細胞の内部表現を調整可能なパラメータの集合として扱い、それらをデコーダネットワークとともに共同で最適化して各モダリティを正確に再構成できるようにします。第二の段階では、これらの内部表現を新しいデータから推定できるようにエンコーダネットワークを訓練し、未見の細胞への一般化やモダリティ間の予測を可能にします。

シミュレーションと実データでの検証

著者らはまず、真の基礎構造が既知の注意深く設計されたシミュレーションデータセットでAPOLLOをベンチマークしました。共有因子とモダリティ固有因子が統計的に絡み合っているような複数のシナリオにおいても、APOLLOはそれらを意図した区画に分離することに成功しました。次に、マウス皮膚のペア化された遺伝子発現とクロマチンアクセスビリティデータ、免疫細胞における遺伝子発現と表面タンパク質量のペアデータ、高度に多重化された細胞イメージなどの実データに適用しました。これらの実データでは、共有空間が細胞型を定義する主要な調節因子などのコアな生物学的テーマを捉える一方、モダリティ固有空間は細胞周期状態や一測定に特有のバッチ効果のような追加の層を浮かび上がらせました。

欠損イメージの予測と細胞構造の解明

注目すべき応用例として、がん患者由来の免疫細胞のイメージングがあります。ここでは各細胞に対してDNA染色と一つまたは複数のタンパク質染色があるものの、すべてのタンパク質が各細胞で測定されているわけではありません。APOLLOはクロマチンの組織パターンとタンパク質局在の関係を学習し、クロマチンイメージのみからある細胞で未測定のタンパク質がどのように見えるかを予測できます。これらの予測タンパク質イメージは現実的であり、患者診断を識別するように訓練された別の分類器が、それらに対して実画像とほとんど同等の性能を示します。別の大規模イメージ資源であるHuman Protein Atlasでは、APOLLOは核の形状、微小管ネットワーク、粗面小胞体といった構造がタンパク質の細胞内局在とどのように結びつくかを分離して明らかにします。あるタンパク質では核のテクスチャ変動が最も情報量が多く、別のタンパク質では周囲の細胞骨格の特徴が支配的であることがわかりました。

細胞同一性のより明瞭な像

専門外の方に向けた主要なメッセージは、APOLLOによって研究者が同一細胞の多様な測定を、どの測定がどの説明を与えているかを見失うことなく統合できる点です。共有情報とモダリティ固有情報を明示的に分離することで、この手法は未測定データ（例えば測定されていないタンパク質イメージ）の予測を可能にするだけでなく、疾患状態やタンパク質の再局在のような表現型と真に結びつく細胞室やデータ型を特定する手助けをします。各細胞の構造化され解釈可能な要約を形成する能力は、より精密な診断や、生物学の異なる層がどのように協調して働くかの深い機構的理解への基盤を築きます。

引用: Zhang, X., Shivashankar, G.V. & Uhler, C. Partially shared multi-modal embedding learns holistic representation of cell state. Nat Comput Sci 6, 285–300 (2026). https://doi.org/10.1038/s43588-025-00948-w

キーワード: シングルセル・マルチオミクス, 表現学習, 細胞状態, タンパク質局在, クロマチンイメージング