Clear Sky Science · ja

EPInformer:マルチモーダルなエピゲノムプロファイルからプロモーター―エンハンサー配列を統合して遺伝子発現をスケーラブルに予測する手法

· 一覧に戻る

なぜ遺伝子の活動を予測することが重要か

体内のほぼすべての細胞は同じDNAを持っているにもかかわらず、脳細胞、血球、肝細胞では振る舞いが大きく異なります。その差を生み出しているのは、どの遺伝子がオン/オフになっているかです。DNAと関連信号から直接遺伝子の活動を予測できれば、細胞がどのように発生し、環境に応答し、また病気でどのように異常をきたすかを理解するのに役立ちます。本論文は、人工知能の最近の進展を利用して、従来法よりも正確かつ効率的に遺伝子活動を予測する新しい計算ツール、EPInformerを紹介します。

Figure 1
Figure 1.

遠く離れたDNAスイッチが遺伝子を制御するしくみ

遺伝子は読み始め点である短いDNA領域(プロモーター)だけで制御されるわけではありません。エンハンサーと呼ばれる遠隔のDNA断片もリモートスイッチのように働きます。これらのスイッチは遺伝子から数万〜数十万塩基離れて存在し得て、三次元空間でループしてプロモーターに接触します。生のDNA配列に加えて、DNA上の化学的なタグやタンパク質マーカー――総称してエピゲノム信号――が、特定の細胞型でどのスイッチが活性かを示します。従来の計算モデルは、特に非常に遠方にあるスイッチの影響を含めて、これらすべての情報を統合し遺伝子発現の強さを予測するのに苦労してきました。

多くの信号を同時に読むコンパクトなAIモデル

EPInformerは、言語モデルから派生したトランスフォーマーと呼ばれる現代的なAIアーキテクチャに基づいて構築されています。文章の代わりに、遺伝子とその候補スイッチ周辺のDNA断片を読み取ります。モデルはまず各プロモーターと近傍エンハンサー配列を、重要なパターンを捉える数値的な「埋め込み」に変換します。さらに局所的な化学マーク、クロマチンの開放性、DNA領域同士が三次元で接触する頻度の計測値などを追加チャネルとして付加できます。特殊なアテンション機構が各候補スイッチとプロモーターの相互作用に焦点を当て、スイッチ同士の相互作用は意図的に無視します。最終的な予測ステップでは、学習された表現を遺伝子の基本的なRNA特性と組み合わせて、期待される活動レベルを出力します。

少ない計算資源でより良い予測

EPInformerを評価するために、著者らはDNAのアクセス可能性、化学マーク、3D接触、遺伝子活動をプロファイルした大規模な公開データセットで学習と評価を行いました。配列と距離だけを用いるバージョン、エピゲノム信号を追加したバージョン、さらに3D接触マップを含めたバージョンを比較しました。標準的なRNA配列解析とプロモーターに特化したアッセイ(CAGE)の両方において、EPInformerは長大な配列をスキャンする大規模な配列専用モデルを含む主要手法を一貫して上回りました。特筆すべきは、パラメータ数が極めて少なく(約0.4百万対数億単位の数百ミリオンに比べ)、単一のGPUで約1時間のトレーニングが可能だった点です。これにより、大規模な計算クラスターがなくても多くの研究室で正確な遺伝子活動モデリングが利用可能になります。

Figure 2
Figure 2.

重要なスイッチとその制御語を見つける

EPInformerのアテンション機構は各候補エンハンサーが遺伝子に与える影響の強さをスコア化するため、与えられた細胞型で最も重要なスイッチを特定するのにも役立ちます。著者らは、これらのアテンションスコアが、特に遠距離にあるスイッチについて、活性と接触に基づく広く使われるスコアリング法よりも実験的に確認されたエンハンサー–遺伝子対をより正確に回復することを示しました。さらに解釈ツールを用いて、上位スコアのエンハンサーのDNA配列を詳しく解析し、転写因子の結合部位に一致する短い反復パターンを同定しました。例えば血液系の細胞では、赤血球発生の主要な制御因子のモチーフが再発見され、モデルが単にデータを記憶しているのではなく生物学的に意味のあるルールを学習していることを示唆しています。

今後の生物学と医療にとっての意義

端的に言えば、EPInformerはDNA配列、化学的タグ、ゲノムの3D折りたたみを組み合わせることで、異なる細胞型で遺伝子がどのようにオン・オフされるかをより鮮明かつ低コストで示すレンズを研究者に提供します。特定の遺伝子にとってどの遠方スイッチが重要か、そしてそれらがどのような制御語を含むかを強調できる能力は、変異や標的編集が遺伝子活性に与える影響を検証する実験の指針になります。このアプローチをより多くの細胞型や異なる遺伝子バリアントに拡張すれば、非コード領域の変化が複雑な形質や疾患にどのように寄与するかを説明し、より精密な遺伝子治療の設計に役立つ可能性があります。

引用: Lin, J., Li, Z., Zhao, Y. et al. EPInformer: scalable and integrative prediction of gene expression from promoter-enhancer sequences with multimodal epigenomic profiles. Nat Commun 17, 3975 (2026). https://doi.org/10.1038/s41467-026-70535-8

キーワード: 遺伝子発現予測, エンハンサー・プロモーター相互作用, エピゲノミクス, ゲノミクスにおける深層学習, クロマチン構造