Clear Sky Science · ja

学習済み表現とマルチタスク学習を活用したリジンメチル化部位の発見

2026-02-23 · 一覧に戻る

健康に関わる小さなタンパク質マークが重要な理由

細胞の中では、タンパク質に小さな化学タグが絶えず付与され、それによって活性がオン／オフに切り替わります。その一例であるリジンのメチル化は遺伝子の働きを制御し、がんなどの疾患と関連することが増えています。しかし、何千ものタンパク質のどこにこれらのマークが付いているかを実験で特定するのは時間と費用がかかります。本研究はMethylSight 2.0という強力な計算モデルを紹介します。これはタンパク質配列をスキャンして、どのリジンがメチル化されやすいかを予測し、研究者が新たな生物学的知見や潜在的な薬剤標的をより速く見つけられるようにします。

タンパク質上の隠れたスイッチ

タンパク質はアミノ酸の鎖から構成され、リジンは細胞が化学タグを付けられる重要な位置の一つです。リジンのメチル化は核内でDNAがどのようにパッケージされるかを制御し、どの遺伝子がオン／オフになるかを形作ることが知られています。しかし、多くのリジンメチル化イベントはヒストン以外のタンパク質、例えば細胞骨格を構成するもの、エンジンのように働くもの、シグナルを伝えるものに起こります。これらのマークを付ける酵素のいくつかはがんで過活動になるため、有望な薬剤標的となります。課題は、ヒトタンパク質全体にわたってメチル化を実験的に検出するには多大な時間、費用、および専門装置が必要であるため、研究者は実験作業を有望な部位に絞るために予測ツールに頼ることです。

タンパク質の言語をコンピュータに教える

著者らは「タンパク質言語モデル」の最近の進展を基盤にしています。これは数百万～数十億のタンパク質配列で学習され、配列と構造・機能を結びつけるパターンを学ぶアルゴリズムです。これらのモデルは、タンパク質中の各アミノ酸を、その化学的環境や3次元的文脈を捉えたリッチな数値表現に変換します。各リジンとその近傍に対して得られるこれらの学習済み表現を用いて、研究チームはより単純な多層パーセプトロンからより高度なトランスフォーマーアーキテクチャまで、いくつかのニューラルネットワーク設計を試しました。彼らは公共データベースから高信頼度のメチル化部位を選び、現実的なネガティブ例を構築し、性能を過大評価しないよう冗長性の回避にも注意を払って学習データを慎重に構築しました。

他の化学的マークから学ぶ

細胞はリジンを単独で装飾するわけではありません。同じ位置はアセチル化、ユビキチン化、またはSUMO化されることがあり、これらのタグは競合したり協調したりしてどの修飾が優勢になるかに影響します。研究者らは、これら他のマークに関連するパターンがメチル化の認識を助けると考えました。そこで問題をマルチタスク設定に変換し、単一のトランスフォーマーベースのネットワークで4種類のリジン修飾を同時に予測するように訓練し、内部パラメータの大部分を共有させました。この構成により、ある修飾から得られた知識が他の修飾、特に既知例が少ないメチル化の予測を強化します。

優れた予測と実験による裏付け

マルチタスクのトランスフォーマーモデル、MethylSight 2.0は、独立したテストセットで従来のツールを大きく上回り、ある重要な精度指標で以前の方法の2倍以上の性能を示しました。実際の細胞でのメチル化の希少性を現実的に見積もると、著者らは厳しい条件下でもモデルが有用な適合率を維持すると推定しています。次に彼らはMethylSight 2.0をレビュー済みヒトプロテオーム全体に適用し、保守的なしきい値を用いて6万件を超えるメチル化が起こりそうなリジンを予測しました。その中から100箇所を選んで標的質量分析実験を行ったところ、68箇所でメチル化を検出し、モデルの予測が実験結果につながることを示しました。

拡大するタンパク質制御の地図を描く

学習済みのタンパク質表現、高度なニューラルネットワーク、マルチタスク学習を組み合わせることで、著者らはヒトの「リジンメチローム」がおよそ15万5千箇所を含む可能性があると推定しており、従来の認識よりはるかに多いことを示唆しています。解析は、予測されたメチル化が翻訳、RNA処理、細胞骨格に関与するタンパク質に特に富むことを示しており、これらのシステムが化学的修飾によって厳密に調節されているという先行する示唆と一致します。MethylSight 2.0はパブリックなウェブサーバーとダウンロード可能なソフトウェアとして利用可能なため、研究者は興味のあるタンパク質をスキャンし、実験の優先順位を付け、疾患関連のメチル化イベントをより効率的に探索できます。実用的には、本研究はタンパク質への微細な化学的変更が健康と病気にどのように影響するかを探るための、より鮮明な地図とより良い指針を提供します。

引用: Charih, F., Boulter, M., Biggar, K.K. et al. Leveraging learned representations and multitask learning for lysine methylation site discovery. Sci Rep 16, 10212 (2026). https://doi.org/10.1038/s41598-026-39136-9

キーワード: リジンメチル化, 翻訳後修飾, タンパク質言語モデル, プロテオミクスにおける深層学習, がんエピジェネティクス