Clear Sky Science · zh

在 DeepLC 中使用迁移学习可改善不同修饰和配置下的液相色谱保留时间预测

· 返回目录

为什么预测化学时间很重要

每当科学家研究细胞中的蛋白质时,他们通常先把微小的蛋白质片段(称为肽段)通过充满液体的色谱柱,然后再用质谱仪称量它们。每个肽段在柱中停留的时间——其“保留时间”——提供了极为重要的信息,帮助研究人员识别和确认所测得的物质。但由于各实验室使用的仪器和设置略有不同,预测这些保留时间的计算模型常常在从一个配置迁移到另一个配置时失效。本文展示了一种称为迁移学习的现代机器学习技巧如何使这些预测在多种实验条件下更加可靠和灵活。

Figure 1
Figure 1.

为蛋白质片段的旅程计时

在蛋白质研究中,液相色谱–质谱联用是主要工作方法。液相色谱步骤依据化学特性将成千上万的肽段分离开来,防止它们同时到达检测器。所得的保留时间,连同肽段的测得质量,为科学家提供了强大的二维指纹。过去十年里,研究人员训练计算模型直接从肽序列预测保留时间。这些预测提高了肽段鉴定的置信度,帮助设计更好的实验,并且对于构建用于现代高通量工作流程的大型计算生成的谱库至关重要。

实验室条件变化的问题

不幸的是,保留时间对溶剂酸度、色谱柱材料、压力和温度等细节高度敏感。即使是很小的变化也可能重排肽段从柱中洗脱的顺序。传统方法试图通过用一小组参考肽对在其他地方训练的模型进行“校准”来解决这个问题,假定肽段的洗脱顺序保持不变。当该假设不成立时——例如当色谱柱化学性质或样品 pH 改变时——校准可能严重失败。另一种选择是为每种配置训练全新的模型,但这需要大量准确测量的肽段,而这些数据并不总是可得,尤其是对于稀有或不寻常的化学修饰。

用迁移学习重用已有知识

作者基于 DeepLC 构建,该深度学习模型已经能为多种肽类型预测保留时间。他们没有在每种新情况下从头开始,而是重用在大型高质量数据集上训练好的模型,并在来自新配置的一小部分肽段上对其进行微调。在从数百个公开实验抽取的 474 个数据集中,这种迁移学习策略几乎总是优于简单校准和从随机初始参数训练全新模型。当只有几百到几千个训练肽段可用(这是实际研究中常见的场景)时,收益尤为明显。即便在存在大量示例的情况下,迁移学习通常仍能提供略好的准确性。

Figure 2
Figure 2.

处理不寻常化学与极端条件

为了检验该方法的适用范围,研究团队考察了非常具挑战性的情形。在一种情形中,肽段带有体积较大的化学标签,使其更加“油腻”,显著改变了它们的保留时间。另一种情形中,色谱柱中的流动相由酸性改为碱性,根本改变了肽段与柱的相互作用。在这两种情况下,简单校准旧模型都失败了,即使是新训练的模型也需要大量示例才能达到良好准确度。然而迁移学习能够迅速适应,在所需训练肽段数量上减少两到三倍即可达到相当或更好的性能。该方法还改善了对一系列在训练期间从未见过的翻译后修饰的预测,表明模型对肽段化学的先验知识可以迁移到新修饰上。

这对未来蛋白质研究意味着什么

对非专业读者而言,核心信息是:重用神经网络已学习到的关于肽段行为的知识,使在新实验条件下获得精确的时间预测变得容易得多。研究人员无需辛苦收集大量训练集或忍受简单校准带来的糟糕表现,只需用适量示例微调现有的 DeepLC 模型即可获得高精度的保留时间预测。这使得先进的预测工具更加稳健和更易获得,从而在不同仪器、化学条件和稀有肽修饰之间实现可靠分析,最终帮助科学家更清晰高效地解读蛋白质世界。

引用: Bouwmeester, R., Nameni, A., Declercq, A. et al. Transfer learning in DeepLC improves LC retention time prediction across substantially different modifications and setups. Nat Commun 17, 2601 (2026). https://doi.org/10.1038/s41467-026-68981-5

关键词: 蛋白质组学, 液相色谱, 保留时间预测, 深度学习, 迁移学习