Clear Sky Science · ja

JanusDDG: 二面的アテンションを用いた配列ベースのタンパク質安定性予測のための物理知識組み込みニューラルネットワーク

2026-02-03 · 一覧に戻る

この研究が重要な理由

タンパク質は細胞を機能させる微小な機械であり、その構成要素の一つの変化が働きを良くしたり悪くしたり、あるいは機能を失わせたりします。こうした変化がタンパク質の安定性にどう影響するかを予測できることは、遺伝性疾患の理解やより良い薬や工業用酵素の設計に不可欠です。本稿はJanusDDGという新しい人工知能モデルを紹介します。これはタンパク質の配列のみから変異による安定性の変化を予測し、同時にタンパク質の折りたたみに関する基本的な物理法則を満たすよう設計されています。

脆弱なタンパク質機械という問題

タンパク質が三次元の立体構造に折りたたまれるとき、複数の力がバランスを取ります。テントを多くのロープで支えるようなものです。変異は一部のロープを強めたり緩めたりし、構造をより安定にしたり不安定にしたりします。これらの効果を実験的に確かめるには時間と費用がかかるため、研究者は通常、安定性変化（ΔΔG）を推定するために計算モデルに頼っています。既存のツールは詳細な三次元構造が利用できる場合にうまく働くことが多く、時には熱力学の規則を暗黙に破ってしまうことがあり、紙上では正確に見えても物理的に一貫しなかったり、新しいタンパク質に対して信頼しにくかったりします。

配列を読み取る新しい方法

JanusDDGはこの課題に対して、タンパク質言語モデルという手法から出発します。これは数百万件のタンパク質配列で学習された大規模ニューラルネットワークで、言語モデルがテキストから学ぶのと似た仕組みです。これらのモデルは各アミノ酸を進化や典型的な折りたたみパターンを反映した豊かな数値表現に変換します。JanusDDGは野生型と変異体の配列を取り、それぞれの学習された表現を比較し、変異が周囲の文脈に与える影響に注目する特殊なアテンション機構を使います。配列だけを用いるため、三次元構造が不明あるいは決定が困難なタンパク質にも適用できます。

人工知能に物理を組み込む

JanusDDGの重要な革新は、基本的な物理原理を尊重するよう設計されている点です。著者らはタンパク質安定性の基底にあるギブズ自由エネルギーの二つの性質に注目しています。まず反対称性（antisymmetry）は、ある変異A→Bの安定性変化がある値なら、その逆変異B→Aはちょうどその逆符号でなければならないということです。次に推移性（transitivity）は、AからB、BからCへと変える効果の和がAからCへ直接変える効果と等しくなるべきだという性質です。JanusDDGのアーキテクチャは、入力を入れ替えた二つの鏡像的なネットワークを走らせて出力を組み合わせることで反対称性を厳密に満たすようにし、推移性は変異経路を分割した際にも一貫した予測をするよう特別な損失項を訓練に加えることで促進します。

多様な変異での性能評価

研究者らは測定済みの安定性変化を含む数千の変異からなる精選データセットでJanusDDGを訓練し、訓練データとの配列重複が非常に低く抑えられた複数の独立ベンチマークで性能を評価しました。この慎重な設計はモデルが馴染みのあるタンパク質をただ記憶しているリスクを低減します。単一変異の三つの広く使われるコレクション全体で、JanusDDGは他の配列ベース手法や多くの三次元構造依存手法に匹敵するか上回る結果を示しました。また複数同時変異（変化同士の相互作用が非加法的になることがある難しいケース）も扱えました。特筆すべきは、従来モデルがしばしば苦戦した、空間的に近接する変異ペアでも精度が低下しなかった点です。

数値から有用な安定性ラベルへ

実用上、研究者は単に変化の大きさだけでなく、その変異が明確に安定化するのか不安定化するのかを知りたいことが多いです。著者らは安定化変異と不安定化変異を区別することに焦点を当てたデータセットでJanusDDGを評価しました。モデルは堅実な性能を示しましたが、この課題は生データの数値予測よりも難しく、特にカテゴリ間の境界付近では実験ノイズや生物学的曖昧さが大きく影響しました。それでも、JanusDDGは他の上位手法と比べて好ましい結果を出しており、物理に配慮した設計と豊かな配列埋め込みの利用が、多くの競合よりもこの不確実さをうまく扱うのに寄与していることを示唆しています。

将来のタンパク質設計への意味

総じて、JanusDDGは現代の配列ベースAIの強みと物理法則という確かな制約を組み合わせることが可能であることを示しています。タンパク質を言語のように読み取る一方で、予測が反対称性と推移性を満たすようにすることで、モデルは正確で熱力学的に一貫した安定性推定を生み出します。専門外の人への要点は、三次元構造を必要としない信頼できるツールが着実に近づいており、無数の可能な変異を走査して安定化が期待できる候補を浮かび上がらせたり、疾患に関連するリスクのある変化を警告したりすることが、統計的な近道に頼るだけでなく物理法則に基づいて行えるようになってきた、ということです。

引用: Barducci, G., Rossi, I., Codicé, F. et al. JanusDDG: a physics-informed neural network for sequence-based protein stability via two-fronts attention. Commun Biol 9, 494 (2026). https://doi.org/10.1038/s42003-026-09632-9

キーワード: タンパク質の安定性, 遺伝子変異, タンパク質設計, 機械学習, 熱力学