Clear Sky Science · ja

変異を用いた事前学習で機能ゲノミクスのモデル化を改善するゲノミクス言語モデル

· 一覧に戻る

コンピュータにDNAの言語を読ませる

個々人のDNAは何百万もの微細な違い(変異)を含み、身長から疾患リスクに至るまで様々な特性を形作ります。多くの変異が遺伝子のオン/オフの度合いに影響することは知られていますが、DNAの文字列から遺伝子の活性へと結びつけることは難題でした。本研究は、DNAを言語のように扱い、数十万単位の人々に観察される変異のパターンを用いて、特定の細胞や個人で遺伝子がどのように振る舞うかをより正確に予測する新しい人工知能モデルを紹介します。

Figure 1
Figure 1.

なぜDNAを人間の言語のように扱えるのか

単語が文脈によって意味を変えるように、DNAの断片もゲノム上の「文脈」によって異なる役割を果たします。制御領域は制御する遺伝子から遠く離れて存在することがあり、同じDNA配列が複数の生物学的機能に寄与することもあります。著者らは、こうした長距離にわたるパターンが自然言語における多義性や文脈依存性に似ているという考えを出発点にしています。元々テキスト用に開発されたニューラルネットワーク構造を用いて、DNAの「文法」と人間の遺伝的変異がどのように遺伝子の機能や発現を形作るかを学習しようとしています。

実際の人間の変異からゲノミクス言語モデルを構築する

研究チームはUKBioBERTを作成しました。これはヒトのリファレンスゲノムと、約30万人のUKバイオバンク参加者から得られた1300万件以上の変異の両方で訓練されたDNA言語モデルです。訓練中、モデルにはいくつかの塩基が隠され文脈から推測する必要があるような改変配列が提示され、文章の空所補充に似た自己教師あり学習が行われます。このプロセスにより、どの配列パターンが共起しやすいか、変異がそれらのパターンをどのように変えるかをモデルが内在化します。チームはその内部表現を検証するため、既知の類似機能を持つ遺伝子からの配列が学習空間上で近くに配置されるかを調べます。複数のクラスタリング指標で、UKBioBERTは訓練中に機能情報を与えられていないにもかかわらず、従来のゲノミクスモデルよりも遺伝子機能を明確に分離しました。

配列パターンから細胞および個人における遺伝子活性へ

DNAの「言語」を学ぶことが有用なのは、それが実際の生物学、特に遺伝子発現—異なる細胞型や個人で遺伝子がどの程度オンになるか—を説明するのに役立つ場合です。著者らはUKBioBERTの配列埋め込みを既存の深層学習フレームワークに組み込み、DNAから遺伝子活性を予測します。細胞株レベルでは、プロモーターとエンハンサー配列にエピジェネティック信号を組み合わせる既存のアーキテクチャEPInformerを強化しました。UKBioBERTのDNA埋め込みと遺伝子機能のテキスト記述を追加することで、いくつかのヒト細胞株における遺伝子発現予測の精度が向上し、予測値と実測値の相関が高まり、交差検証分割にわたる性能の安定性も改善しました。

個別化予測と遺伝子が予測可能である理由

次にチームはより困難な課題に取り組みます:全ゲノム配列のみから個人ごとの遺伝子発現を予測することです。まずUKBioBERT埋め込みを従来の統計手法に組み合わせ、GTExコホートの代表的な41遺伝子の発現を予測しました。性能は手作りの遺伝的特徴を用いる強力なベースラインに匹敵するかやや劣る程度で、ファインチューニングされていない配列モデルを大きく上回りました。興味深いことに、遺伝子ごとに発現の予測可能性は大きく異なります。この差は遺伝率のような標準的な指標では十分に説明されません。代わりに、UKBioBERTの埋め込みがとらえられるような、個人間で発現レベルがより明確なクラスターに分かれる遺伝子は予測しやすい傾向があります。多くの異なる生物学的機能に関与する遺伝子は配列だけから予測するのが難しいことが多いです。

Figure 2
Figure 2.

より強力な個人レベル予測のためのモデル融合

個別化予測をさらに推し進めるため、著者らはUKBioBERTを長距離配列モデリングに強いEnformerやBorzoiと融合させ、UKBioFormerとUKBioZoiを作成しました。これらのハイブリッドは長距離の配列モデリングと変異に配慮した埋め込みを組み合わせ、パラメータ節約技術で効率的にファインチューニングされます。同じ遺伝子セットに対して、UKBioFormerはしばしば従来のベストな深層モデル(Performer)や標準的な統計アプローチを上回り、発現が比較的予測可能な遺伝子群で優れた性能を示しました。また、ヨーロッパ系の個人で訓練されたモデルをアフリカ系アメリカ人に適用した場合でも汎化性能が改善され、未加工の配列と集団変異から学ぶことが集団を越えた制御ロジックの一部を捉えることを示唆しています。

単一変異が遺伝子活性をどう変えるかを見る

UKBioFormerはニューラルネットワークであるため、個々の変異が予測にどのように影響するかを調べることができます。著者らは勾配に基づく手法やインシリコ変異実験を用いて、特定の塩基を変更したときに予測発現がどのように変わるかを推定しました。JUPという遺伝子を含むいくつかの遺伝子について、モデルは既知の調節変異(eQTL)の大多数に対して効果の方向性と概ねの大きさを正しく推定し、稀な変異に対しても同様の結果を示しました。また、これらの変異の周囲にある局所的な配列モチーフが既知の調節タンパク質の結合パターンと一致することも強調されました。これにより、モデルは単に全体的な発現レベルに当てはめているだけでなく、配列モチーフ、変異、遺伝子調節の間にある機構的な結びつきを学習していることが示されます。

ゲノミクスと医療にとってこの研究が意味すること

本研究は、大規模なヒト変異集合を直接用いてゲノミクス言語モデルを訓練することで、遺伝子発現予測や変異の解釈を改善するより豊かなDNA表現が得られることを示しました。すべての遺伝子が配列だけから予測可能なわけではありませんが、UKBioBERT–UKBioFormerの組み合わせは、発現パターンが構造化され変異駆動的な遺伝子に対して特に良好に機能します。また、実験コストの高い検証を行う前にどの変異が遺伝子活性を変えうるかを探索する実用的な手段を提供します。データセットがより多様化し複数遺伝子同時学習の手法が進歩すれば、こうしたモデルは個人のゲノムを分子特性につなげ、最終的には遺伝的に影響を受ける疾患の研究を導く重要な道具となる可能性があります。

引用: Liu, T., Zhang, X., Lin, J. et al. Pre-training genomic language model with variants for better modeling functional genomics. npj Artif. Intell. 2, 46 (2026). https://doi.org/10.1038/s44387-026-00103-4

キーワード: ゲノミクス言語モデル, 遺伝子発現予測, 遺伝的変異, 機能ゲノミクス, UKバイオバンク