Clear Sky Science · ja

階層型の解釈可能なトランスフォーマーを用いた酵素委員会番号の信頼できる予測

· 一覧に戻る

酵素の「仕事」を予測する意義

すべての生細胞は酵素と呼ばれる無数の小さな化学機械によって機能しています。各酵素は特定の「仕事」を持ち、その仕事は郵便番号のような四段階のコードであるEnzyme Commission(EC)番号に符号化されています。EC番号を正しく付与することは、代謝の理解、新薬の設計、燃料やプラスチック代替品を生産する微生物の設計、さらには生態系における化学物質の処理の追跡に不可欠です。しかし、酵素機能を実験的に決定する作業は時間がかかり費用も高い。本研究では、タンパク質配列からEC番号を高い信頼性で予測すると同時に、各予測の理由を説明できる新しい人工知能モデルHIT-ECを紹介します。

Figure 1
Figure 1.

酵素の仕事に対する郵便番号システム

ECシステムは、1.1.1.37のような四段階のコードを各酵素に割り当てます。最初の数字は広いクラス(例えば電子を移動させる酵素や基を転移する酵素など)を示し、後の数字がより具体的な反応の詳細を表します。この階層性は強力ですが、予測課題を厳しくします:数千に及ぶ可能性のあるコードのうち四段階すべてを正確に当てなければならない上、稀な酵素やデータベースで部分的にしか注釈されていない酵素(例えば詳細レベルが欠けた3.5.-.-など)も存在します。既存の計算手法は3D構造、配列類似性、あるいは深層学習のいずれかを用いることが多いですが、稀な酵素で苦戦しやすく、部分的にラベル付けされたデータを無視しがちで、さらに“ブラックボックス”的に振る舞い、判断理由をほとんど示しません。

ECの階段に沿う四階建てのAI

HIT-EC(Hierarchical Interpretable Transformer for EC prediction)は、四段階のEC階層を反映するよう設計されています。生のタンパク質配列を入力として受け取り、各ECレベルに対応する4つのトランスフォーマーレイヤーを順に通します。局所的なフローにより各レイヤーは前のレベルと結びつき、第四桁のような詳細な判断が第一・第二桁と整合するようにします。同時にグローバルなフローが各段階で配列全体の文脈を保持します。さらに、このモデルは不完全なラベルのついた配列も学習できるように設計されており、“マスクされた損失”を使って欠損したECレベルを単に無視し、その配列全体を排除しないようにします。これにより、注釈が部分的なタンパク質が多数存在する整備済みデータベースからも学習できます。

精度と速度でライバルを上回る

著者らはSwiss-ProtとProtein Data Bankから約20万件、1,938種類のEC番号を含む大規模かつ慎重にフィルタリングされたデータセットを構築しました。繰り返しのホールドアウト検証で、HIT-ECは全体およびクラスごとのF1スコアの両面で主要な3手法(CLEAN、ECPICK、DeepECtransformer)を上回りました。特に既知例が25件以下の過小代表なECコードに対して強みを示し、従来手法がしばしば失敗する領域で優れていました。さらに、トレーニング後にSwiss-Protに追加された新規酵素や、Escherichia coli、Bacillus subtilis、Mycobacterium tuberculosisといったよく研究された株を含む多様な細菌の完全ゲノムに対しても良好に一般化しました。高度な設計にもかかわらず効率性も高く、標準的なGPU上で1配列あたり約38ミリ秒で処理でき、類似性検索や多数のモデルのアンサンブルに依存する競合法に比べて数十倍高速でした。

Figure 2
Figure 2.

モデルが「どこを見ているか」を可視化する

予測を信頼できるものにするため、HIT-ECは各ECレベルの判断に影響を与えた配列中のアミノ酸を示すよう設計されています。著者らはアテンション重みと勾配情報を組み合わせた解釈経路を構築し、各位置の重要度をスコア化しました。これらのスコアは十分に特徴付けられた酵素ファミリーで検証されています。例えばシトクロムP450ファミリー(CYP106A2)では、酸素結合領域やヘム結合領域といった既知の機能モチーフをHIT-ECが強調し、あるベンチマークモデルが見逃した微妙なEXXRモチーフも特定しました。アルコールデヒドロゲナーゼ、ヘキソキナーゼ、炭酸脱水酵素のような各トップレベルECクラスの代表例でも、モデルの関連度スコアは教科書的なシグネチャモチーフや基質結合部位を明瞭に示しました。これらの解釈は、モデルが偶然の相関ではなく意味のある特徴に基づいて判断しているという生化学的な「証拠」を提供します。

希少で新興の酵素研究を導く

研究チームは、汚染物質の浄化に重要だが十分に研究されていない二つの酵素でもHIT-ECを試験しました:芳香族汚染物質の分解に関与するシトクロムP450と、ストレプトマイセス由来でプラスチック関連分子の分解に寄与するPET分解性ヒドロラーゼです。これらはいずれも実験的に特徴付けられていたものの公式なEC割り当てがなされていませんでした。HIT-ECは期待されるEC番号を正しく予測し、構造学的および生化学的研究から知られるモチーフパターンや触媒残基を強調しました。総じて、本研究はHIT-ECが特に希少な機能に対して既存ツールよりも正確かつ迅速にEC番号を割り当てられるだけでなく、なぜその酵素が特定の化学反応を行うと考えられるのかを明らかにできることを示しています。この性能と解釈可能性の融合は、ゲノミクス、バイオテクノロジー、環境研究における大規模で信頼できる酵素注釈のエンジンとして有望です。

引用: Dumontet, L., Han, SR., Lee, J.H. et al. Trustworthy prediction of enzyme commission numbers using a hierarchical interpretable transformer. Nat Commun 17, 1146 (2026). https://doi.org/10.1038/s41467-026-68727-3

キーワード: 酵素機能予測, 生物学における深層学習, トランスフォーマーモデル, タンパク質注釈, バイオレメディエーション酵素