Clear Sky Science · ja

サポートベクターマシン(SVM)を用いたTATA結合タンパク質(TBP)とさまざまなタンパク質ドメイン折りたたみ様式の進化的関係の評価

· 一覧に戻る

DNAの「オン・スイッチ」タンパク質が他の多くとつながるしくみ

TATAボックス結合タンパク質(TBP)は細胞の働き手であり、多くのプロモーターでDNAに結合して遺伝子のスイッチを入れる手助けをします。本研究は、見かけは大きく異なる役割を持つ他のタンパク質が、ひそかにTBPの基盤となる形状を共有しているかどうかという、一見単純だが重要な問いを扱います。3次元構造比較、配列解析、最新の機械学習ツールを組み合わせることで、著者らは代謝、神経伝達物質の化学、さらにはがん関連経路に関わるタンパク質とTBPとの隠れた家族関係をたどります。

遺伝子制御の中心にある重要なタンパク質

TBPは酵母からヒトに至るまで遺伝子発現の入り口に位置します。短いDNA配列であるTATAボックスを認識し、DNAを曲げて遺伝子をRNAへ写し取る大規模な転写装置の組み立てを助けます。この段階が極めて中心的であるため、TBPコアの立体構造(フォールド)は進化を通じて高度に保存されています。著者らはよく研究されたTBP構造の一つである1tbaに注目し、それをプローブとして用いて、アミノ酸配列や日常的な機能が一見かなり異なって見えても、その構造的設計図を共有している可能性のある他のタンパク質を探索します。

Figure 1
Figure 1.

混雑したタンパク質宇宙で構造的な近縁を見つける

現代のデータベースには数十万のタンパク質構造が含まれており、配列ではなく3次元形状で遠縁の親類をスキャンすることが可能です。著者らは、DALIとTOP-searchという2つの強力なツールを用いて、まずTBPのフォールドに似た形状を持つタンパク質を抽出しました。次に、それらの候補を進化的ドメイン目録で分類し、構造的に類似しているが機能的には多様な少数の例に絞り込みました。これには、代謝で重要なグルタミン合成酵素様の酵素、いくつかのtRNA処理酵素に見られるドメイン、「ホットドッグ」フォールドという特徴的な折りたたみを持つ脂肪酸化学に関わる酵素、そして脳機能に重要なテトラヒドロビオプテリンを生成するのを助けるタンパク質群が含まれます。これらをTBPに重ね合わせると、異なる機能を持ちながらも認識できる共通のコアモチーフを共有していることが示されました。

機械に隠れたタンパク質ファミリーを識別させる

個別検査を超えるために、著者らはTBP様フォールドを自動的に検出できる機械学習モデルを構築しました。TBPまたは関連フォールドに属することが知られている大規模なタンパク質配列集合と、無関係なタンパク質の「背景」集合を用意しました。各タンパク質は単純な数値要約に変換されました:各アミノ酸の出現頻度と配列中でのアミノ酸対の出現頻度です。これらのプロファイルをサポートベクターマシン(SVM)やランダムフォレストモデルに入力し、あるフォールド型を他と分離することを学習させました。厳密な交差検証の結果、モデルは非常に高い精度(多くの場合95パーセント以上)に達し、保存領域に対応する配列の一部のみを用いた場合でも高精度を維持しました。

Figure 2
Figure 2.

数千件の未知構造でモデルを試す

訓練済み分類器を手に、研究チームは再び構造データベースに戻りました。DALIやTOP-searchから取得した数千のタンパク質鎖をモデルに通し、どれがTBP様や関連フォールドの統計的特徴を持つかを調べました。SVMとランダムフォレストのアプローチは概ね一致し、構造的ツールが類似と判断した多くの候補を選び出しました。場合によっては、一見無関係な活性を持つ酵素であってもTBPや互いに強くクラスタリングし、進化が同じ基盤的フレームワークを多様な生化学的役割に再利用してきたという考えを補強しました。

これらの隠れたつながりが重要な理由

本研究は、TBPがグルタミン合成酵素様タンパク質やtRNA処理酵素の編集ドメインなど、いくつかの酵素ファミリーと深い構造的祖先関係を共有していることを示しています。配列が変化し機能が分岐しても、これらのタンパク質は共通の構造モチーフを保持しており、共通の祖先からの派生を示唆します。専門外の読者にとっての主要なメッセージは、自然は成功した設計を再利用する傾向があり、単一のフォールドが遺伝子のオン化から代謝や脳化学の微調整に至るまで非常に異なる問題を解決するために何度も適応されうるということです。3次元構造比較と機械学習を組み合わせることで、著者らはそのような関係を明らかにする実用的なツールキットを提供し、未解明のタンパク質の機能予測や疾患関連経路における進化に基づく新しい薬物標的の探索に寄与します。

引用: Selvaraj, M.K., Kaur, J. Evaluating the evolutionary relationship of TATA binding protein (TBP) with various folding patterns of protein domains using support vector machine (SVM). Sci Rep 16, 7696 (2026). https://doi.org/10.1038/s41598-026-38883-z

キーワード: TATAボックス結合タンパク質, タンパク質の進化, 機械学習, タンパク質構造, サポートベクターマシン