Clear Sky Science · ja

CREsted: 組織と種を越えて細胞型特異的エンハンサーをモデル化・設計する

· 一覧に戻る

なぜDNAの小さなスイッチが重要なのか

体内のすべての細胞は同じDNAを持っていますが、脳細胞、血液細胞、筋肉細胞はまったく異なる振る舞いをします。その大きな理由の一つが、エンハンサーと呼ばれる短いDNAスイッチで構成される隠れた制御層で、遺伝子がいつどこでオンになるかを決めています。本稿はCREstedを紹介します。これは現代の人工知能を用いてこれらのスイッチをDNA配列から直接読み取り、新しいスイッチを設計するソフトウェアツールキットです。本研究は、遺伝的要素を単に列挙する段階から、それらを能動的に理解しエンジニアリングする段階へ進む道を示しています。

Figure 1. AIが異なる細胞におけるDNAスイッチを読み取り、その活性を組織や種にわたって予測・設計する方法。
Figure 1. AIが異なる細胞におけるDNAスイッチを読み取り、その活性を組織や種にわたって予測・設計する方法。

細胞の制御スイッチを読む

エンハンサーはミキシングコンソールのつまみのように働き、多数のタンパク質からの信号を組み合わせて各細胞型での遺伝子活性を微調整します。複数のDNAパターンが同様の結果を生むため、エンハンサーのルールは複雑で目視では推測しにくいのです。著者らは、ゲノム上でどこに活性エンハンサーがあるかを示す手がかりとなる、何千もの単一細胞ごとのDNA領域の開放性(オープン/クローズ)の計測技術に基づいています。CREstedはこれらの計測を取り込み、基盤となるDNA配列と結びつけ、複数の細胞型にわたって各領域のアクセスしやすさを予測する深層学習モデルを訓練します。これにより生の配列が調節活性の地図へと変換されます。

データから洞察へ──ツールキットの全体像

CREstedは単一のモデルを超えた、エンドツーエンドのパイプラインです。まず単一細胞データをクリーンアップして細胞型間の技術的バイアスを低減する形に整えます。次に、活性領域を分類するモデルや段階的なアクセス性の値を予測する柔軟なニューラルネットワークを訓練します。重要なのは、CREstedが予測で止まらない点です。特定の細胞型で重要な個々の塩基がどれかを特定し、繰り返し現れるパターンをクラスタリングし、既存のデータベースや遺伝子発現データを使ってそれらのパターンを想定される調節タンパク質に結びつけます。最後に、設計ツールがモデルを使って合成DNA配列を反復的に“進化”させ、選択した細胞型で強い活性を予測し、他の細胞ではほとんど活性を示さない配列を生成します。

脳、血液、がん、魚での検証

著者らは複数の豊富なデータセットでCREstedを実演します。マウスの運動皮質では、彼らのモデルは異なるニューロンや支持細胞型でどのDNA領域がオープンかを高精度で予測し、主要な汎用フレームワークより優れた性能を示します。重要な配列パターンを浮き彫りにすることで、CREstedは特定のニューロンクラスに既知の調節タンパク質を再現し、モチーフ中の単一塩基の変化がニューロンのサブタイプ間で活性を切り替える仕組みを説明することさえできます。ヒトの血液細胞では、関連モデルが古典的な免疫エンハンサーで以前に試験された多くの結合部位を再発見し、独立したタンパク質結合実験ともよく一致しており、学習された配列パターンが生物学的に意味のあるものであることを支持します。

CREstedは応用的な問いにも切り込みます。がんでは、メラノーマと膠芽腫の双方に現れる「間葉様(mesenchymal like)」な細胞状態を、細胞株と患者腫瘍サンプルで訓練したモデルを使って比較します。エンハンサーパターンには共通のテーマが見られる一方で、腫瘍にのみ存在する特定モチーフのような重要な相違も示されます。別の検証では、膨大なゲノムデータで訓練した汎用の“ファウンデーション”モデルが、より小さなタスク特化モデルを真に上回るかを問います。慎重なファインチューニングの後でも、これら大規模モデルはCREsted独自のアーキテクチャが示す細胞型特異的な解像度に匹敵するのが難しく、高品質な単一細胞データに基づく専用訓練が依然として重要であることを示唆しています。

Figure 2. DNAモチーフが深層学習モデルを通じてどのように流れ、自然および人工のエンハンサーにどの細胞が応答するかを制御するか。
Figure 2. DNAモチーフが深層学習モデルを通じてどのように流れ、自然および人工のエンハンサーにどの細胞が応答するかを制御するか。

生きた胚で新しいスイッチを設計する

もっとも印象的な実証はゼブラフィッシュの発生で示されます。胚の多数の発生段階にわたるDNAアクセスビリティの単一細胞マップを用いて、チームはDeepZebrafishと呼ぶCREstedモデルを訓練しました。次に設計モジュールで、心筋だけでオンになる、体筋だけでオンになる、血管内皮だけでオンになる、または心と筋の制御された組み合わせでオンになるように予測される完全に合成されたエンハンサーを生成させました。これらの人工配列を蛍光レポーターの前に置いて魚の卵に注入すると、多くが意図した組織で正確に発光しました。配列の解析は主要な発生調節因子の認識可能なパターンを明らかにし、モデルがランダムな偶然ではなく意味のある“文法”を捉えていることを確かめました。

ゲノムの理解と工学化に向けての意義

非専門家にとって、CREstedはゲノムの調節層を観察する顕微鏡であり、新しい遺伝的部品を設計するドラフトツールと見なせます。DNA配列の断片をそれを使う細胞型の予測へと翻訳し、その振る舞いを駆動する重要な塩基やモチーフを指し示し、望む挙動を示すはずの新しい配列を提案できます。脳、血液、がん、発生中の個体全体にまたがって機能することで、本研究は遺伝子制御の共有ルールと細胞型特異的ルールの両方を明らかにする統一的アプローチの有用性を示しています。長期的には、こうしたツールが研究者のより精密な遺伝的マーカー作成、疾患モデルの改善、DNAの小さな変化が細胞や組織にどのように波及するかの理解に寄与する可能性があります。

引用: Kempynck, N., De Winter, S., Blaauw, C.H. et al. CREsted: modeling genomic and synthetic cell-type-specific enhancers across tissues and species. Nat Methods 23, 946–959 (2026). https://doi.org/10.1038/s41592-026-03057-2

キーワード: エンハンサーモデリング, 深層学習ゲノミクス, 単一細胞クロマチン, シス調節要素, 合成エンハンサー