Clear Sky Science · zh

基于机器学习的蛋白质组基因组数据建模识别出用于肺癌早期检测的循环血浆生物标志物

· 返回目录

这项研究为何重要

肺癌在全球范围内导致的死亡人数超过其他任何癌症,主要因为它通常被发现得太晚。现有的筛查工具主要针对重度吸烟者,并依赖于影像学扫描,而这些扫描可能错过早期病变。本研究提出了一个简单但有力的问题:常规血样(在出现症状前数年采集)能否揭示哪些人在悄然走向肺癌?通过将遗传数据与数千种血液蛋白以及现代机器学习相结合,研究人员寻找可能作为早期预警信号的指标,这些信号未来或可扩展筛查并挽救生命。

在基因和血液中寻找线索

研究团队首先检查了来自英国和芬兰大型人群生物样本库中数十万人的DNA。他们比较了后来发展为肺癌的人与未患病者的基因编码,定位与较高风险相关的DNA片段。接着,他们考察这些相同的遗传变异是否与血液中特定蛋白质的差异有关。蛋白质是机体的主要功能分子,其含量的变化可以在肿瘤出现在影像之前很久就暴露出早期生物学压力。通过将风险基因与血液蛋白水平连接起来,研究人员开始绘制遗传易感性如何在通往肺癌的过程中以微妙方式重塑机体内在化学状态的图谱。

Figure 1
Figure 1.

在诊断前数年追踪血液信号

研究的第二部分直接集中于血液蛋白作为可能的早期病情信号。研究者使用高通量平台,测量了来自超过26,000名英国生物样本库志愿者血样中近3,000种不同的蛋白质。有些人在采血时已被诊断出肺癌,但许多人直到数年后才患病。研究者将这些“未来患者”按诊断时间分组:采血后0–4年内、5–9年内或在采血后0–9年内的任何时间。然后,他们将每组的蛋白水平与无癌参与者进行比较,以找到在诊断前很久就持续不同的蛋白质。

教计算机识别高风险谱系

因为没有单一蛋白能说明全部情况,团队借助机器学习来解读数百种标志物之间的复杂模式。他们训练了多种算法——包括随机森林和神经网络——仅使用血液蛋白谱来区分未来会发展为肺癌的人与始终无癌的人。这些模型表现良好,准确度(AUC)约在0.8–0.88之间,即使使用的样本是在诊断前长达九年采集的。值得注意的是,基于蛋白数据构建的模型明显优于仅基于年龄、性别和吸烟史等标准风险因素的模型,表明血液信号提供了医生现有信息之外的有意义补充。

Figure 2
Figure 2.

关键蛋白揭示了什么

在不同时间窗口中,研究人员反复识别出一组核心的22种蛋白,其水平与未来肺癌密切相关。其中14种此前已与肺癌有关,而8种是新出现的候选物。许多蛋白参与免疫反应、炎症和肺组织瘢痕形成过程,提示早期肺癌可能在影像可见之前很久就开始重塑机体的防御系统。在采血于诊断前5–9年的人群中,数种蛋白的较高水平也与日后癌症出现时更差的生存期相关,这暗示这些早期标志物可能还包含有关未来肿瘤侵袭性的信息。

对患者意味着什么

这项工作尚未带来可直接使用的血液检测方法,也未证明这些蛋白质会导致肺癌。相反,它提供了一幅详细图谱,描绘了在诊断前数年中基因与血液化学如何变化,并强调了若干值得深入研究的循环蛋白作为早期预警标志。如果后续研究证实并完善这些发现,未来一次简单的抽血或许能在症状出现前多年识别高风险个体——包括一些终身不吸烟者——从而引导更及时的影像检查、密切监测,并最终挽救更多生命。

引用: Johnson, M.A., Nieves-Rodriguez, S., Hou, L. et al. Machine learning-based proteogenomic data modeling identifies circulating plasma biomarkers for early detection of lung cancer. Commun Med 6, 253 (2026). https://doi.org/10.1038/s43856-026-01500-1

关键词: 肺癌, 血液生物标志物, 蛋白质组学, 遗传风险, 早期检测