Clear Sky Science · zh

使用经整理的全癌症数据集和特定工作流程实现跨病种蛋白表达分析

· 返回目录

为什么比较癌症中的蛋白质如此困难

抗癌药物越来越多地针对许多肿瘤类型中的相同生物靶点,但判断某个靶点在哪种肿瘤中最重要并不简单。目前,像美国国家癌症研究所的 CPTAC 这样的大型公共项目从数千个肿瘤样本中产生了详细的蛋白质测量数据。然而,这些测量是在不同机构、不同时间、并带有不同技术特性的条件下产生的。因此,单纯问“这个蛋白在肺癌中是否高于肾癌?”可能会得到误导性的答案。本研究描述了一种实用、数据驱动的方法,用于清理、补全并对齐这些复杂的蛋白质数据集,从而使跨癌种的公平比较成为可能。

构建一个共享的癌症蛋白图谱

作者以 CPTAC 的全癌症集合为起点:来自十种癌症类型、超过一千例肿瘤及相应的正常组织样本,均通过质谱测量。每个样本能捕获到数千种蛋白,但不同肿瘤间并非总是测到相同的蛋白,且各队列的整体分布也不同。研究团队首先使用统一的计算流程重新处理所有原始数据,以保证每个队列得到一致的处理。随后他们聚焦于一个核心集合——超过一万种“稳健表达”的蛋白,这类蛋白在某些癌种中具有合理丰度且很少缺失——以便跨癌种比较建立在稳定的测量之上,而非零散的信号上。

Figure 1
Figure 1.

在不扭曲全貌的情况下填补空白

即便经过谨慎筛选,许多蛋白值仍然缺失。有些缺失是随机发生的,类似偶发的笔误;另一些则是因为蛋白水平低于仪器的检测限。把所有缺失一概而论会引入偏差。因此,作者采用了一种“队列混合(cohort hybrid)”策略,根据每种癌症类型内不同的缺失模式分别处理。对于看起来只是欠抽样的蛋白,他们从相似样本中借用信息来估算缺失值。对于那些持续低到无法检测的蛋白,则使用针对左截断数据的方法,将这些值放在接近仪器下限的位置。这种细致的方法旨在在不杜撰人为差异的前提下,重建一个更真实的蛋白水平图景。

使不同癌种的分布可比

填补缺失后,另一个问题仍然存在:一些队列的总体蛋白信号比其他队列更高或更不稳定,主要源于样本制备或仪器校准等技术因素。为校正这一点,团队将蛋白强度转换为一种类似绝对的度量,然后测试了两种归一化策略。一种称为全局分位数归一化,强制所有样本——跨越所有癌种和组织——共享相同的蛋白值总体分布。另一种为“平滑”分位数归一化,在癌种或组织内协调样本分布,同时允许组间存在差异。通过检查变异模式并进行大量的敏感性检验,作者表明全局分位数归一化在最大程度上减少了不需要的技术差异,同时仍保留了有意义的生物学对比,例如肿瘤与正常组织之间的变化。

Figure 2
Figure 2.

与独立的 RNA 数据进行对照

为了评估清理后的蛋白数据在各癌种间的真实性,作者转向来自癌症基因组图谱(TCGA)的 RNA 测量。对于一小部分其蛋白水平在癌种间与对应 RNA 密切相关的蛋白,他们比较了不同肿瘤类型在蛋白表达与 RNA 表达中的排序。如果跨癌种归一化成功,这些排序应保持一致。事实上,队列混合插补与全局分位数归一化的组合在蛋白与 RNA 的排序一致性上表现最佳,优于未归一化的数据和替代归一化方法。额外的测试显示,在完整处理流程后,关键的生物学信号——例如哪些蛋白在肿瘤与正常组织间发生变化,以及哪些细胞通路被改变——在很大程度上保持稳定。

这对未来癌症研究的意义

简而言之,这项工作将一组嘈杂且不均衡的蛋白测量转变为一个更可靠的共享参考,便于比较不同癌症。通过谨慎决定要保留哪些蛋白、如何填补缺失值以及如何跨研究对齐分布,作者创建了一个更符合独立 RNA 数据且保留肿瘤生物学特征的全癌症蛋白资源。该标准化数据集及其开放工作流程可帮助研究者在多种肿瘤类型中对药物靶点进行排序、识别癌症选择性蛋白并生成治疗新假设——从大规模数据加速走向肿瘤学的实际进展。

引用: Wang, J., Tian, X., Yu, W. et al. Enabling cross-indication protein expression analysis using a curated pan-cancer dataset and a tailored workflow. Sci Rep 16, 14623 (2026). https://doi.org/10.1038/s41598-026-44872-z

关键词: 全癌症蛋白质组学, 蛋白表达归一化, CPTAC, 缺失数据插补, 癌症靶点发现