Clear Sky Science · zh

基于自述症状与背景因素,使用机器学习模型预测肺癌确诊时分期

· 返回目录

为何早期发现肺癌如此困难

肺癌是最致命的癌症之一,主要原因在于常常在晚期才被发现,届时治疗选择有限。然而,许多肺癌患者在确诊前及确诊时确实出现症状——如咳嗽、气短、疲劳或体重下降——理论上这些症状可能促使医生更早关注。本研究提出了一个简单但重要的问题:如果患者系统地、详细地报告他们的症状和背景信息,计算机能否学会识别谁更有可能患肺癌以及病情是处于早期还是晚期?

Figure 1
Figure 1.

倾听患者自身的叙述

研究人员随访了486名因医生怀疑肺癌而被转诊到斯德哥尔摩一所专科门诊的人群。所有人都在平板电脑上完成了一份名为PEX-LC的详细电子问卷,问卷涵盖57项背景因素(如年龄、吸烟情况、居住状况及既往肺部疾病)和100多种可能的症状,从呼吸困难与咳嗽到疼痛、疲劳、食欲变化与发热等。问题不仅记录最早出现的警示信号,也记录了确诊前后存在的症状。随后一年间,医疗记录显示谁被确诊为肺癌,以及病情是非进展期(主要为I–IIIa期)还是进展期(IIIb–IV期)。

谁被确诊为肺癌

在被转诊的人群中,约有四成没有癌症,而六成被诊断为肺癌,非进展期与进展期大致各占一半。与无癌者相比,肺癌患者倾向于年龄更大、更可能每天吸烟、更可能独居,并且更可能在过去一年内出现体重下降。在进展期患者中,男性比例偏高,且既往肺部疾病如哮喘、慢性阻塞性肺病和肺炎更为常见。这些背景性格局表明,日常因素——年龄、吸烟史、居住状况和近期健康变化——在症状出现之前就已是强有力的风险信号。

突出的症状

当研究组比较自报症状时,发现早期肺癌患者与无癌者在外观上出乎意料地相似:在单项比较中,只有喘鸣声(呼吸时的哨音)和无发热这一点能明显将早期患者与无癌者区分开来。相反,进展期肺癌患者有更多显著的主诉。他们更可能报告呼吸短促、气急、刺激性咳嗽和嘈杂的呼吸声,以及疼痛(尤以背痛为主)、严重疲乏、无力、发冷和进食问题,例如早饱与食欲减退。这些模式证实,到了肺癌进展期,它通常影响多个身体系统,而早期疾病则可能隐藏在模糊或易被忽视的感觉之后。

Figure 2
Figure 2.

计算机能做什么与不能做什么

为了解复杂答案组合是否能比单一症状提供更清晰的线索,研究人员训练了几种类型的机器学习模型。这些算法从129个不同的问卷变量中学习,用以区分非进展期癌症与无癌,以及单独区分进展期癌症与无癌。模型仅达到中等准确度:表现优于随机但远未完美,尤以早期疾病为甚。年龄、吸烟状况、性别和独居等背景因素始终位列最具影响力的预测因子。一些症状——刺激性咳嗽、哨鸣或嘈杂呼吸、气急、喉部紧缩、疼痛以及食欲或体重变化——也有贡献,尤其是在预测进展期癌症时。然而,没有少数症状能主导预测;相反,需要将数十个细微特征组合起来才能达到有限的性能。

对患者和医生的意义

这项研究表明,简单地详细询问人们的症状与生活情况可以揭示与肺癌相关的有意义模式,但这些信号往往很微弱,尤其是在治疗最有可能获益的早期阶段。仅依靠问卷数据的机器学习模型可以帮助筛选哪些被转诊的患者可能需要尤其紧急的检查,但它们还不足以独立作为筛查工具或诊断测试。对患者和临床医生来说,主要结论是:年龄、吸烟、独居和近期体重下降,结合持续的呼吸问题、疼痛、食欲下降或不明原因的疲劳,应降低进行全面肺部检查的门槛。作者认为,未来更早发现肺癌的希望可能来自将此类自述信息与临床数据和生物学检测相结合,而不是单靠症状本身。

引用: Gustavell, T., Sissala, N., Pernemalm, M. et al. Predicting lung cancer stage at diagnosis based on self-reported symptoms and background factors using machine learning models. Sci Rep 16, 11866 (2026). https://doi.org/10.1038/s41598-026-46710-8

关键词: 肺癌, 早期发现, 患者自报症状, 机器学习, 风险评估