Clear Sky Science · zh

串联质谱在代谢组学中跨电离模式的化学相似性预测

· 返回目录

为何连接化学点很重要

每一口咖啡、每次呼吸或每剂药物都会在我们体内留下微小的化学痕迹。现代仪器可以同时检测数千种此类分子,但将这些信号转化为生物学洞见仍然出乎意料地困难。本研究引入了MS2DeepScore 2.0,一种机器学习工具,帮助科学家识别这些分子之间的关联,即便这些信号是以非常不同的方式记录下来的。通过这样做,它有望加速并完善医学、营养学和环境研究中对复杂化学混合物的解析。

同一分子的两种观测方式

质谱是一种常用技术,通过称重和打碎分子来揭示其身份。在常规实验中,研究者通常以两种模式测量同一样品:一种偏好正离子,一种偏好负离子。每种模式都会产生其特有的碎片“条形码”。即便两次测量来源于同一分子,得到的谱图也可能差异很大,以致传统的比较方法失效。因此,研究者通常将两种模式分开分析,分别构建两个互不相连的样本图谱,从而可能错失化学物质之间的重要关联。

Figure 1
Figure 1.

弥合差距的学习系统

MS2DeepScore 2.0 通过直接从大型已知谱库中学习化学相似性来应对这一分歧。该模型基于孪生神经网络设计,将每个碎片化模式转换为一个由500个数字组成的指纹,称为嵌入。在训练过程中,系统看到来自正、负两种模式的数十万示例,以及这些谱图对应分子的真实相似性。模型自我调整,使得相关分子的谱图无论是否来自相同电离模式,最终在嵌入空间中具有相似表示。新版本在前作基础上进一步引入了额外信息,例如母离子的质量和所用的电离模式,并采用精心平衡的采样方案,确保稀有但富信息的化学关系不会被常见且无信息的关系淹没。

从分散信号到统一图谱

训练完成后,MS2DeepScore 2.0 可以估计任何两条谱图之间的化学相似性,包括正负模式配对。作者展示了这些预测与既有的结构相似性度量之间具有良好相关性,不仅在同一模式内如此,在跨模式比较中也能成立。利用来自人类尿液、人类血浆和一种野生食用植物的真实数据,他们构建了“分子网络”,其中每个谱图为一个节点,强烈的预测相似性在节点间形成连接。与旧方法不同,这些网络自然地将正负电离模式的数据混合到单一、连贯的图谱中。经专家整理的簇示例包括尿液中与咖啡因相关的分子组,它们跨电离模式相互连接并符合已知的代谢通路。

一目了然的化学景观

分子网络非常有用,但若包含过多弱连接就会变得纠结。为避免这种情况,作者直接将 MS2DeepScore 的嵌入用作由 UMAP 技术创建的二维布局的坐标。该图中的每一个点代表一条谱图,邻近的点对应模型认为化学上相似的分子。同一化合物的正负模式谱图——肉眼上可能差异很大——常常在该嵌入空间中并列出现。团队还训练了一个附加模型,对每个嵌入进行评估并估计其可靠性,标记出噪声大、不完整或与训练时未见过的谱图。剔除这些低质量点能提升整体准确性,使可视化结果更可信。

Figure 2
Figure 2.

将先进工具带入日常实验室

为确保这项技术可被非程序员轻松使用,作者将 MS2DeepScore 2.0 集成到流行且免费可用的质谱软件中。通过这一集成,研究者可以检测特征、构建忽略电离模式界限的分子网络,并通过交互式仪表板探索由此产生的化学空间。代码、训练好的模型和示例数据集均已公开共享,且该系统可以针对特定化学类别重新训练或进行微调。

对未来发现的意义

对于非专业读者,核心信息是 MS2DeepScore 2.0 有助于将分散且依赖测量模式的数据整合为单一、更加易于理解的样本分子图景。通过可靠地连接过去处于不同分析“世界”的信号,该方法使科学家能够利用更大规模的参考谱库、更全面地比较样本,并将注意力集中在有意义的相关化合物簇上。这种跨模式的数据连接预计将加速生物标志物、营养素、天然产物和污染物的鉴定,最终加深我们对化学如何影响健康与环境的理解。

引用: de Jonge, N.F., Chekmeneva, E., Schmid, R. et al. Cross ionization mode chemical similarity prediction between tandem mass spectra in metabolomics. Nat Commun 17, 2483 (2026). https://doi.org/10.1038/s41467-026-69083-y

关键词: 代谢组学, 质谱, 机器学习, 分子网络, 化学相似性