Clear Sky Science · ja
XL-MSDigger:クロスリンキング質量分析のための深層学習ベースの多用途ソリューション
タンパク質がどのように結びついているかを可視化する
体内のあらゆるプロセスは、タンパク質が正しい立体構造を取るだけでなく、適切な相手を見つけることにも依存しています。しかし、これらの分子間の関係を実際に観察するのは非常に困難です。本研究はXL-MSDiggerを紹介します。これは最新の人工知能を用いて、クロスリンキング質量分析というノイズの多い実験手法からはるかに明瞭な信号を抽出し、細胞内でタンパク質がどのように配置され、誰と相互作用しているかをマッピングするのに役立つソフトウェアプラットフォームです。
混み合った分子世界の解きほぐし
タンパク質の構造や接続を調べるために、研究者はしばしばクロスリンキング質量分析を使います。この手法では、近接しているタンパク質部分を小さな化学的“橋”で結合させます。結合した断片を酵素で切断し、質量分析計で質量を測定します。本来であれば断片のパターンからどのタンパク質断片が空間的に近かったかを特定でき、まるで本のどのページが一緒に挟まれていたかを見つけるようなものです。しかし実際には、得られるデータは非常に複雑です。既存の解析ツールは主に質量情報のみを参照することが多く、組み合わせの膨大さに対処しきれず、本来のつながりを見逃したり、誤った一致を生じたりします。

タンパク質断片の“言語”をニューラルネットワークに教える
著者らは、これらのクロスリンキング実験をより適切に解釈するためにDeep4D-XLという深層学習モデルを構築しました。まずヒト細胞由来のタンパク質をクロスリンクし、ペプチドに分解し、質量だけでなく、計測器中を移動するのにかかる時間(保持時間)やイオンモビリティチャンバー内での挙動も記録した大規模なリファレンスセットを作成しました。各クロスリンク対はモデル向けに符号化され、双子の“Siamese”構造で両方のペプチドパートナーを読み取り、クロスアテンションで両者の情報を組み合わせます。これによりネットワークは、新しいクロスリンクされたペプチドについて、実験でいつ現れるか、どのように移動するか、そしてその断片化パターンがどのようになるかという三つの主要な性質を予測することを学びます。
予測をよりクリアな信号に変える
XL-MSDiggerは、この予測エンジンを2つの主要なデータ収集方式向けの解析ワークフローに組み込みます。従来のターゲット型では、装置がその場で選んだイオンの断片だけを選択的に記録します。XL-MSDiggerは既存の検索ソフトウェアからの初期候補を取り、各候補についてモデルが予測する挙動と照合して再評価します。第二のニューラルネットワークは予測と実験データを複数の観点で比較し、スコアを改善します。この再スコアリングにより、酵母やヒト試料で異なるタンパク質間の確信度の高いリンクの数がほぼ倍増し、誤検出率を低く保ちながらこれまでより多くのタンパク質–タンパク質相互作用が明らかになりました。
大量の非偏見データを意味あるものにする
近年の手法であるデータ非依存取得(DIA)は、試料中のほぼすべての断片を記録してカバレッジを改善しますが、圧倒的なデータ量を生みます。これまで、その結果得られたクロスリンクのうちどれが本当に実在するかを評価する良い方法はありませんでした。XL-MSDiggerはDeep4D-XLを利用して、巧妙にマッチさせた“デコイ”ライブラリ(偽のクロスリンク)を構築し、実ライブラリとデコイを同時に解析します。デコイがどれくらい通過するかを確認することで偽発見率を推定し、さらに真偽を分ける別のニューラルネットワークを訓練します。この再スコアリングにより、信頼できるクロスリンク信号の数は約5倍に増加し、実パターンとデコイの間に明瞭な分離が得られます。

まだ測定されていないものを予測する
モデルは任意の妥当なクロスリンク化ペプチドがどのように振る舞うかを予測できるため、研究チームはさらに一歩進んで、直接測定されていないリンクのデータ解析を行えます。選択したタンパク質や相互作用ネットワークに焦点を当てた中規模の予測ライブラリを生成し、非偏見データに対してこれらのライブラリを検索します。この戦略により、単一タンパク質内や重要なシャペロンタンパク質の相互作用パートナー間で追加のリンクが見いだされ、それらの距離は既知の三次元構造とよく一致しました。従来のより限定的な実験ライブラリでは見落とされがちだった低存在量の結合も回復されました。
タンパク質の“つながり”をより明瞭にする
非専門家向けに言えば、XL-MSDiggerは既に強力な実験手法の上に重ねられた高度に訓練されたパターン認識器のように機能します。複数次元で真のクロスリンク信号がどのように見えるべきかを学習することで、膨大で雑然としたデータセットをふるいにかけ、疑わしい偽信号を排除し、真に存在するがこれまで隠れていたタンパク質間結合を救い出します。全プロテオーム規模での適用には依然として大きな計算資源が必要ですが、本研究はクロスリンキング実験と深層学習を組み合わせることで、細胞内でタンパク質がどのように配置され、誰と出会っているかの可視性を大幅に高められることを示しています。
引用: Chen, M., Hao, Y., Huang, X. et al. XL-MSDigger: a deep learning-based, versatile solution for cross-linking mass spectrometry. Nat Commun 17, 2554 (2026). https://doi.org/10.1038/s41467-026-69489-8
キーワード: タンパク質相互作用, クロスリンキング質量分析, 深層学習, プロテオミクス, データ非依存取得