Clear Sky Science · ja

タンパク質–タンパク質相互作用モデリングのためのペア配列言語モデル

· 一覧に戻る

タンパク質の“相棒”を研究する理由

細胞内では、タンパク質が単独で働くことは稀で、多くの場合は2つ以上で協働してシグナルを伝え、構造を組み立て、感染に対抗します。どのタンパク質が相互作用するのか、どれほど強く結合するのか、どの部位で接触するのかを知ることは、細胞の働きや疾患の発生機構を明らかにします。しかし、これらのタンパク質間のすべての組合せを実験で測定するのは時間とコストがかかります。本研究は、アミノ酸配列のみを入力として、2つの配列を同時に読み取り、誰が誰と結合するか、結合の強さ、接触点を認識する新しい人工知能モデルを紹介します。

二つのタンパク質を同時に読む新しい方法

現在の多くのタンパク質言語モデルは各鎖を単独のものとして扱い、相手との相互作用の可能性を無視します。著者らは代わりに「Protein Pair Language Model(PPLM)」を構築し、常に二つの配列を並べて扱うようにしました。これはトランスフォーマーという言語技術で普及した深層学習アーキテクチャを用いていますが、各タンパク質内のパターンと二つのタンパク質間のパターンを別々に追跡できるようカスタマイズされています。訓練には構造データベースや相互作用ネットワークから集めた330万を超えるタンパク質ペアを用い、自然界でのタンパク質の結び付き方を広く学習させました。

Figure 1
Figure 1.

配列に隠れた相互作用シグナルの検出

PPLMが本当にタンパク質の相互作用を理解しているかを試すため、著者らは配列ペア中のマスクされたアミノ酸を予測させ、代表的な単一配列モデルであるESM2と比較しました。さまざまなソースからの数千のタンパク質ペアにわたって、PPLMは一貫してより確信度が高く正確であり、特にタンパク質が接触するインターフェース上の残基で優れた性能を示しました。モデル内部の“アテンション”パターンを可視化すると、PPLMはインターフェース領域に自然と注目しており、インターフェースの位置を明示的に教えられていなかったにもかかわらずその領域を重視していることが示されました。既知の複合体の詳細なケーススタディでは、モデルが最も強く注目した残基対が、三次元空間で実験的に観測された接触の多くと一致しました。

基礎的理解から実用的予測へ

この基盤をもとに、研究チームは三つの応用ツールを作成しました。PPLM-PPIは二つのタンパク質がそもそも相互作用するかどうかを予測します。五種の異なる生物種にわたるテストで、いくつかの最先端の配列ベース手法を上回り、訓練で見たものと大きく異なる試験対象であっても、より正確で安定した相互作用判定を示しました。PPLM-Affinityは二つのタンパク質間の結合強度を推定します。測定された結合強度を持つ大規模ベンチマークで、同タスク向けにファインチューニングしたESM2のバージョンに勝るだけでなく、詳細な3D構造を用いる専門的手法にも勝利しました。特に抗体と抗原の結合やT細胞受容体の免疫標的認識など、医学的に重要な系で顕著な改善が見られました。

どこが接触しているかを特定する

三番目のツール、PPLM-Contactは、二つのタンパク質間で実際に接触している残基対を特定します。これはPPLMのクロスプロテイン・アテンションパターンを、複数配列アラインメントからの進化情報や個々のタンパク質構造からの距離マップと組み合わせます。いくつかの難しいテストセットにわたって、PPLM-Contactは接触マップを正確に復元し、インターフェース残基を既存手法よりも良く同定しました。これには構造入力に大きく依存する方法も含まれます。拡張版のPPLM-Contact2はさらに、現代の3Dモデリングシステムが予測した複合体構造を取り込みます。このハイブリッド手法は構造予測器自体を超えて接触予測を改善し、結合面のより鮮明な描出と結合部位のより確かな局在化を可能にします。

Figure 2
Figure 2.

生物学と医療への意義

総じて、本研究は配列を単独で読むのではなくペアとして読むことで、細胞の生命活動を支える微妙な相互作用パターンをAIモデルがとらえられることを示しています。PPLMとその派生モデルは、二つのタンパク質が出会う可能性、どれほど強く握るか、どのアミノ酸が握手をするかを、安価で豊富に得られる配列情報だけから示すことができます。このアプローチは非常に小さいまたは弱いインターフェースではまだ課題があり、利用可能な訓練データの多様性に依存しますが、相互作用ネットワークのマッピングや抗体・T細胞受容体などのバイオ医薬品設計の指針を与えるスケーラブルな道を提供します。本質的に、本研究は共表現された言語モデルが生の配列データを、タンパク質がどのように協働するかについての豊かで相互作用を意識した洞察に変え得ることを示しています。

引用: Liu, J., Chen, H. & Zhang, Y. A paired sequence language model for protein-protein interaction modeling. Nat Commun 17, 3733 (2026). https://doi.org/10.1038/s41467-026-70457-5

キーワード: タンパク質–タンパク質相互作用, タンパク質言語モデル, 結合親和性, インターフェース接触予測, 計算構造生物学