Clear Sky Science · ja

タンパク質分類のための新しい普遍的ドメイン中心法

· 一覧に戻る

タンパク質を分類することが健康に重要な理由

すべての細胞の内部で、何千もの小さなタンパク質という機械が生命を維持している。その中でも特に重要なのがプロテインキナーゼで、他のタンパク質のスイッチを入れたり切ったりする酵素であり、多くの現代医薬品、特にがん治療薬の主要な標的となっている。しかし研究者は、キナーゼをその働き方を反映する家族群にきれいに分類することに未だ苦労している。本稿は、実際に仕事をする共有のコア領域とその構成要素の基本的な物理化学的特徴に着目することで、キナーゼ──そして原理的には他の多くのタンパク質──を分類する新しい方法を提示する。これによりタンパク質ファミリーの地図がより明瞭になり、最終的には薬剤設計の手がかりが向上することが期待される。

Figure 1
Figure 1.

系統樹からより詳細なフィンガープリントへ

従来、キナーゼは遺伝子やタンパク質配列を比較して進化的な「系統樹」を作ることでクラスに分けられてきた。この手法は非常に成功しており、AGC、CAMK、CMGC、STE、TK、TKLなどの主要グループに分類される約500のヒトキナーゼを明らかにした。しかし、多くの新規に発見されたキナーゼはこれらのグループにきれいに収まらないことがある:配列は異なって見えても、細胞内での振る舞いは似ている場合があるのだ。標準的な配列比較は各アミノ酸の基礎的性質――サイズ、電荷、親水性などがタンパク質の折りたたみや機能を決める――にあまり注意を払わない。著者らは、キナーゼファミリーを真に理解するには、配列のアルファベット的な一致を超えて、これら物理化学的フィンガープリントを詳しく見る必要があると主張している。

キナーゼの活性コアにズームイン

この目的のために研究者らは497個のヒトキナーゼドメインの高品質なアライメントを用いた。これらのコンパクトなコア領域が実際にリン酸を付加する化学反応を担う。共有ドメインマップの各位置について、アミノ酸の文字を電荷、疎水性、極性、サイズなどの性質を表す最大30個の数値記述子に置き換え、ギャップ用の追加マーカーも与えた。結果として得られるのは、各キナーゼドメインの詳細な数値的肖像であり、立体構造における類似した振る舞いはこれらの数値パターンにも反映されるはずである。次に主成分分析という標準的手法を使ってこれらの肖像の複雑さを低次元に縮約し、多数の測定値をいくつかの主要な方向に凝縮した。

データ自身にクラスタリングを任せる

既知のクラスをコンピュータに教えずに、チームは縮約した数値データに対してk-meansと呼ばれる教師なしクラスタリング手法を適用した。多様なクラスタ数を試し、統計的スコアを用いて最も意味のあるグループ化を特定し、複数の解を統合して最終的に24のクラスタを得た。それぞれのクラスタには、複数回の実行での安定性を反映する信頼度スコアが付与された。注目すべきことに、約90%のキナーゼが元のクラスラベルと一致するクラスタに入ったことから、物理化学的ドメイン肖像が既存の分類を自然に再現し、場合によってはそれを鋭くすることが示された。一部のクラスタには主要なクラスと以前は“OTHER”に分類されていたキナーゼが混在しており、そうした外れ値が実際には確立されたファミリーに属する可能性を示唆している。

重要な構造的ホットスポットの発見

グループ化を超えて、この方法はキナーゼドメインのどの部分が差異を駆動しているかを明らかにする。主成分と残基の性質を組み合わせ、ランダム化テストでデータをシャッフルすることで、あるクラスを他と強く区別する性質パターンを持つ特定の位置を同定した。顕著な例の一つは、CMGCキナーゼの活性化ループ領域にある位置で、ほとんど常に正に帯電した残基が置かれており、多くの他のクラスとは異なる。構造モデルは、代表的なCMGCキナーゼにおいてこの残基が活性化に不可欠な近傍のリン酸化部位を安定化するのに寄与していることを示している。興味深いことに、“分類未定”とされたCDC7というキナーゼもこの位置で類似の環境を共有しており、その進化的履歴が異なっていてもCMGCキナーゼのように振る舞うという予測を支持している。

Figure 2
Figure 2.

未知のものにラベルを教える機械学習

これらの知見を実用的な予測に変えるため、チームは既知ラベルを持つキナーゼの物理化学的フィンガープリントを用いて、ロジスティック回帰、ランダムフォレスト、確率的分類器などの教師あり機械学習モデルを訓練した。慎重なチューニングと交差検証の後、これらのモデルはわずか数個の主成分だけで主要クラスにキナーゼを高精度で割り当てることができた。キャッチオールの“OTHER”グループに残されていた66のキナーゼに適用したところ、CDC7やULKファミリーのメンバーなど複数が一貫して特定のキナーゼクラスに再割り当てされた。これらの再割り当てを、先に同定した重要位置の周辺を中心に構造的に検証したところ、機械による予測が支持され、分類の見直しや実験的追試の指針となる方法であることが示された。

タンパク質ファミリーを描く汎用レシピ

日常語で言えば、本研究はタンパク質が配列の綴りだけでなく、そのコア部分が物理的・化学的にどのように振る舞うかを蒸留することで分類できることを示している。キナーゼにおいては、このドメイン中心の性質ベースの視点は既知のファミリーを再現し、適合しないものの再ラベル付けを助け、活性や制御に重要な構造的“ホットスポット”を浮かび上がらせる。手法が共有ドメインのアライメントと一般的なアミノ酸記述子だけに依拠しているため、著者らはこれが小型GTPaseのような他のタンパク質群にも適用できることを示し、免疫グロブリンやGタンパク質共役受容体などにも拡張可能であると述べている。こうした地図がより精緻になるにつれ、選択性の高い薬剤設計を導き、疾患を引き起こす変異の解釈を助け、機能に焦点を当てた明瞭なタンパク質アトラスを提供する可能性がある。

引用: Fadaei, S., Krebs, F.S. & Zoete, V. Novel universal domain-centric method for protein classification. Sci Rep 16, 11850 (2026). https://doi.org/10.1038/s41598-026-41142-w

キーワード: プロテインキナーゼ, タンパク質分類, 機械学習, タンパク質ドメイン, 構造に基づく生物学