Clear Sky Science · zh

基于端到端深度注意力多任务管道:从质谱数据预测带不确定性估计的肽段性质

· 返回目录

这项研究对健康与生物学的重要性

现代生物医学研究高度依赖质谱来读取细胞和组织中存在哪些蛋白质。然而,尽管仪器强大且数据库庞大,仍有相当一部分数据无法解释,尤其是那些稀有或不寻常的蛋白质,而这些蛋白质可能对癌症或神经系统疾病等有重要意义。本文介绍了ProteoRift,一种机器学习系统,它通过直接从原始数据预测蛋白片段的关键属性并同时报告预测的置信度,帮助揭示更多隐藏信息。

Figure 1
Figure 1.

读取蛋白“指纹”的瓶颈

质谱通过将蛋白质切割成称为肽段的更小片段并测量所得碎片的质量来工作。标准软件随后在大型蛋白质数据库中搜索其计算质量与每个观测到的谱图相匹配的肽段序列。为使这一搜索在计算上可行,大多数工具采用一条简单规则:只考虑整体质量与测量值非常接近的候选项。这种基于质量的过滤加快了速度,但代价是显著的。如果质量被略微误分配,或肽段携带意外的化学修饰,正确答案可能在被考虑之前就被排除,从而导致大量未分配的谱图,并偏向于丰度高、行为良好的肽段。

一种更智能的缩小搜索范围的方法

ProteoRift 提供了一种不同的策略:它不再仅用质量过滤候选,而是学会在任何数据库搜索之前从每个谱图中提取更丰富的信息。该系统以基于注意力的深度神经网络为核心,输入为谱图中的峰值模式及基本采集细节。基于此,它同时预测底层肽段的三个属性:长度、样品制备过程中被切割的次数(漏切)以及是否携带修饰。由于这些任务相互关联,一起训练它们能促使模型形成对谱图的稳健内部表征,提高对新数据的泛化能力。

将预测转化为更快更精简的搜索

为将这些预测付诸实践,作者将 ProteoRift 集成到一个端到端管道中,并与先前开发的名为 SpeCollate 的工具配合使用,后者在嵌入空间中将谱图与肽段序列匹配。首先,ProteoRift 将每个谱图分配到由长度范围、漏切数和修饰状态定义的类别中。数据库中的肽段也基于其已知属性进行分组。然后,搜索引擎仅将谱图与同一类别的肽段进行比较,而不是扫描每一个具有相似质量的肽段。在多个人体与微生物组数据集中,这种有针对性的过滤在理论上将候选搜索空间缩小了超过90%,并在实际中相比仅基于质量的过滤带来大约8到12倍的加速,同时回收了相似数量的高置信度识别肽段。在一些非常大的蛋白基因组和宏蛋白组数据库中,加速比在特定测试中甚至更高,可达到40倍以上。

Figure 2
Figure 2.

知道模型何时可能出错

由于机器学习系统常被视为黑盒,作者还为质谱数据开发了定制的不确定性度量。他们探查在受控扰动下谱图的内部表征变化程度、谱图在训练样本中的相似样本密度,以及原始数据结构在学习空间中的保留程度。这三项指标捕捉了不确定性的不同方面:测量本身的噪声和模型训练中未见样本的空白。综合这些指标,它们可以以很高的准确率区分熟悉与不熟悉的数据,并帮助标记模型得分最高的肽段匹配何时更可能正确。

这对未来发现的意义

通俗地说,ProteoRift 像一个智能的守门人,查看谱图后说“这可能是一个短的、未修饰、且只有一次切割的肽段”,或“这看起来更长且有修饰”,然后只允许合适的候选进入详细搜索。通过这样做,它在不牺牲太多准确性的情况下显著提速分析,即便在复杂或非常大的蛋白质数据库上也是如此。与此同时,它的不确定性度量为研究人员提供了何时信任结果或何时需要更多数据或模型微调的更清晰判断。综上,这些进展有望推动质谱超越对丰度高且已表征蛋白的当前关注,打开通往那些通常包含最有趣生物线索的稀有和修饰肽段的新窗口。

引用: Tariq, U., Shabbir, B. & Saeed, F. End-to-end deep attention-based multitask pipeline for predicting uncertainty-quantified peptide properties from mass spectrometry data. Sci Rep 16, 13331 (2026). https://doi.org/10.1038/s41598-026-43215-2

关键词: 蛋白质组学, 质谱, 深度学习, 肽段鉴定, 不确定性估计