Clear Sky Science · ja
メタボロミクスにおけるタンデム質量スペクトル間のイオン化モードを越えた化学類似性予測
化学的な点をつなぐことが重要な理由
一杯のコーヒーを飲むこと、息を吸うこと、薬を服用すること──いずれも体内に微量の化学物質の痕跡を残します。現代の装置はこれらの分子を一度に何千も検出できますが、それらの信号を生物学的な洞察に変えるのは依然として容易ではありません。本研究はMS2DeepScore 2.0を紹介します。これは、信号が大きく異なる場合でも分子同士の関係を明らかにする手助けをする機械学習ツールです。これにより、医学、栄養学、環境研究における複雑な化学混合物の解釈がより迅速かつ完全になることが期待されます。
同じ分子を二通りの見方で見る
質量分析は分子の重さを測り断片化してその同定に寄与する基礎技術です。日常的な実験では、同一サンプルを正イオンを優先するモードと負イオンを優先するモードの二つで測定することがよくあります。それぞれのモードは独特の断片パターン、いわば“バーコード”を生成します。同じ分子から得られた測定でも、パターンが大きく異なり、従来の比較法では一致を見いだせないことが多いのです。そのため研究者は通常、二つのモードを別々に解析し、サンプルの二つの切断されたマップを作成してしまい、化学物質間の重要な関係を見落とすリスクがあります。

ギャップを埋める学習システム
MS2DeepScore 2.0は、大規模な既知スペクトルライブラリから化学的類似性を直接学習することでこの隔たりに対処します。モデルはツインニューラルネットワーク設計を基盤とし、各断片パターンを500次元のフィンガープリント(埋め込み)に変換します。学習中、システムは正・負の両モードからの数十万の例と、基になっている分子が実際にどれほど類似しているかという情報を見ます。関連する分子のスペクトルが、同一モードであれ異なるモードであれ、類似した埋め込みになるように自己調整します。新バージョンでは、元の分子の質量や使用されたイオン化モードなどの追加情報を取り入れ、まれだが有益な化学的関係が一般的で情報量の少ない関係に埋もれないようにバランスを考慮したサンプリング手法を用いる点で前作を上回ります。
散在する信号から統一された地図へ
一旦学習されると、MS2DeepScore 2.0は任意の二つのスペクトル間、正負モードの組み合わせを含めて化学的類似性を推定できます。著者らは、これらの予測が各モード内だけでなくモード間でも既存の構造類似性指標とよく相関することを示しています。ヒト尿、ヒト血漿、野生の食用植物から得た実データを用いて、各スペクトルをノードとし強い予測類似性がエッジを作る「分子ネットワーク」を構築しました。従来の手法とは異なり、これらのネットワークは正負のモードデータを自然に混在させて単一で一貫した地図を生成します。専門家がキュレーションしたクラスタには、例えば尿中のカフェイン関連分子群がイオン化モードを越えて結びつき、既知の代謝経路と一致する例が含まれています。
化学の風景を一目で見る
分子ネットワークは強力ですが、弱いつながりが多すぎると絡み合ってしまいます。これを避けるために著者らは、MS2DeepScoreの埋め込みを直接座標として用い、UMAPと呼ばれる手法で二次元レイアウトを作成します。この地図の各点は一つのスペクトルを表し、近くに配置された点はモデルが化学的に類似すると判断した分子に対応します。目視ではまったく異なって見える同一化合物の正負モードスペクトルが、この埋め込み空間では隣り合うことがよくあります。加えて、各埋め込みを検査してその信頼度を推定する追加モデルを訓練し、ノイズが多い、断片的、あるいは学習中に見たことのない特徴を持つスペクトルをフラグ付けします。これらの低品質点を除くことで、全体の精度が向上し可視化の信頼性が高まります。

日常の研究室に先端ツールを届ける
この技術をプログラミングの専門家以外でも使えるようにするため、著者らはMS2DeepScore 2.0を広く使われている無償の質量分析ソフトウェアに統合しました。この統合により、研究者は特徴検出、イオン化モードの境界を無視した分子ネットワークの構築、対話型ダッシュボードを通した化学空間の探索が可能になります。コード、学習済みモデル、および例題データセットは公開されており、特定の化学クラス向けに再訓練やファインチューニングを行うこともできます。
今後の発見にとっての意義
非専門家に向けた要点は、MS2DeepScore 2.0が断片化されモード依存だった測定を、サンプル中に存在する分子のより一貫した理解へと変える手助けをする、ということです。以前は別々の解析世界にあった信号を確実に結び付けることで、より大規模な参照ライブラリを活用し、サンプル比較をより完全に行い、意味のある関連化合物のクラスタに注力できるようになります。こうしたデータの横断的な連結は、バイオマーカー、栄養素、天然物、汚染物質の同定を加速させ、最終的には化学が健康と環境に与える影響の理解を深めることが期待されます。
引用: de Jonge, N.F., Chekmeneva, E., Schmid, R. et al. Cross ionization mode chemical similarity prediction between tandem mass spectra in metabolomics. Nat Commun 17, 2483 (2026). https://doi.org/10.1038/s41467-026-69083-y
キーワード: メタボロミクス, 質量分析法, 機械学習, 分子ネットワーキング, 化学的類似性