Clear Sky Science · ja

DeepLCの転移学習により大幅に異なる修飾や条件間での液体クロマトグラフィー保持時間予測が改善される

· 一覧に戻る

化学の「時間」を予測することがなぜ重要か

研究者が細胞内のタンパク質を調べるたびに、まずペプチドと呼ばれる小さなタンパク質断片を液体で満たしたカラムに通し、その後に質量分析計で質量を測定する手法に依存しています。各ペプチドがカラム内にとどまる時間――その“保持時間”――は非常に情報量が多く、測定対象の同定や確認に役立ちます。しかし、各研究室がわずかに異なる機器や条件を使うため、これらの保持時間を予測する計算モデルは一つの環境から別の環境へ移すと性能が大きく低下しがちです。本稿は、転移学習と呼ばれる現代の機械学習の手法が、さまざまな実験条件にわたってその予測をより信頼できるものにする方法を示します。

Figure 1
Figure 1.

タンパク質断片の旅の時間をはかる

タンパク質研究では、液体クロマトグラフィー–質量分析(LC–MS)が主力の手法です。液体クロマトグラフィーの段階は化学的性質に基づいて何千ものペプチドを分離し、検出器へ同時に到達しないようにします。得られる保持時間は、ペプチドの測定質量と合わせて、強力な二次元の指紋情報を提供します。過去10年間で研究者たちは、ペプチド配列から保持時間を直接予測する計算モデルを訓練してきました。これらの予測はペプチド同定の信頼性を高め、実験設計を助け、現代のハイスループットなワークフローで用いられる大規模な計算生成スペクトルライブラリの構築に不可欠です。

変わる実験条件がもたらす問題

残念ながら、保持時間は溶媒の酸性度、カラム材質、圧力、温度などの細部に非常に敏感です。わずかな変化でもペプチドの出現順序を入れ替えてしまうことがあります。従来のアプローチは、別の場所で訓練されたモデルを少数の参照ペプチドで「較正」することでこの問題に対処しようとしますが、このときペプチドの溶出順序が保たれるという仮定に依存します。その前提が崩れると――例えばカラムの化学特性やサンプルのpHが変化した場合――較正は大きく失敗します。別の選択肢としては各条件ごとに新しいモデルを訓練することですが、これには多数の高品質な測定ペプチドが必要で、特に稀な修飾や特殊な化学条件では十分なデータが得られないことが多いです。

転移学習による知識の再利用

著者らは、既に多くのペプチド種に対して保持時間を予測できる深層学習モデルDeepLCを基に研究を進めました。新しい状況ごとにゼロから始める代わりに、大規模で高品質なデータセットで訓練された既存モデルを再利用し、新しい条件から得られたごく小さなペプチド集合で微調整(ファインチューニング)します。公開実験から集めた474のデータセットにわたる検証で、この転移学習戦略は単純な較正法やランダム初期化から新たに訓練したモデルのいずれよりもほぼ常に優れていました。特に、数百〜数千程度の訓練ペプチドしか利用できないという現実的なシナリオで顕著な改善が見られました。多数の例が存在する場合でも、転移学習はわずかに良好な精度を示す傾向がありました。

Figure 2
Figure 2.

特殊な化学や極端条件への対応

この手法の限界を試すために、チームは非常に挑戦的なシナリオを検証しました。あるケースでは、ペプチドにかさばる化学ラベルが付与され、より「脂っぽく」なって保持時間が大きくシフトしました。別のケースではカラム内の溶媒が酸性ではなく塩基性にされ、ペプチドとカラムの相互作用が根本的に変化しました。いずれの場合も、古いモデルを単に較正するだけでは不十分で、新しく訓練したモデルも十分な精度を得るには多数の例を必要としました。しかし転移学習は迅速に適応し、2~3倍少ない訓練ペプチドで同等かそれ以上の性能を達成しました。さらに、この方法は訓練時に一度も見ていない幅広い翻訳後修飾に対する予測も改善し、モデルがペプチド化学に関する既存の知識を新しい修飾へと転用できることを示しました。

今後のタンパク質研究にとっての意味

非専門家向けに言えば、ニューラルネットワークが既に学んだペプチド挙動の知識を再利用することで、新しい実験条件下でも精度の高い保持時間予測を得やすくなる、ということが主なメッセージです。大規模な訓練セットを苦労して集めたり、単純な較正に甘んじて低い性能を受け入れたりする代わりに、既存のDeepLCモデルを適度な数の例で微調整するだけで高精度の保持時間が得られます。これにより高度な予測ツールはより堅牢で利用しやすくなり、異なる機器や化学条件、稀なペプチド修飾にわたる信頼できる解析を可能にして、最終的にはタンパク質の世界をより明確かつ効率的に読み解く助けとなります。

引用: Bouwmeester, R., Nameni, A., Declercq, A. et al. Transfer learning in DeepLC improves LC retention time prediction across substantially different modifications and setups. Nat Commun 17, 2601 (2026). https://doi.org/10.1038/s41467-026-68981-5

キーワード: プロテオミクス, 液体クロマトグラフィー, 保持時間予測, 深層学習, 転移学習