Clear Sky Science · zh

面向大规模不吸烟体检人群的可解释机器学习决策树模型用于预测阻塞性气道疾病

· 返回目录

为什么潜在的肺部问题很重要

许多人认为严重的肺部疾病主要威胁长期吸烟者。然而,令人意外的是相当数量的非吸烟者会悄然出现呼吸问题,直到病情严重才被发现。本研究提出了一个务实的问题:我们能否利用常规体检数据——例如年龄、血压和常见血液检查——来识别那些肺部可能已经出现问题但尚未感到呼吸困难的非吸烟成年人?研究者还希望这些预测对医生来说易于理解,而不是一个神秘的黑盒。

在常规体检中寻找预警信号

研究团队分析了台湾一项大型健康筛查计划的记录,该计划随访了超过五十万名成年人。从这大群体中,他们聚焦了81,055名从未吸烟且体检、化验和肺功能检测数据完整的人。肺功能通过标准的呼气检测来测量,该检测比较一个人在一秒内能呼出的空气量与其总肺活量的比值。当该比值低于某一界限时,表明气道存在阻塞,这是哮喘和慢性阻塞性肺疾病(COPD)等疾病的一个特征。

Figure 1
Figure 1.

教计算机识别高风险肺部

研究者没有只依赖单一的计算方法,而是结合了六种常见的机器学习方法,这些方法常被用于医学预测任务。所用方法包括决策树及几种通过构建大量树来提升准确性的相关技术。每种方法都以25个常见信息项(如年龄、身高、体重、血压、教育程度和常规血液指标)为输入,训练模型以区分肺功能正常与有气道阻塞的人。为了确保结果可靠,团队多次将数据划分为训练集和测试集,平衡少见阳性病例与更常见的阴性病例,并检验每个模型的表现。

找出最有信息量的特征

所有六种模型表现都相当不错,在区分有无气道阻塞的人方面得分相近。但真正的目标是识别哪些体检特征最重要,并将这些知识转化为医生可以遵循的简单规则。为此,研究者在每个模型中对特征重要性进行排序,然后对这些排序取平均。年龄在各方法中持续排名靠前。与体型相关的指标——如身高和体重——也被证明很重要,血压和若干常规化验指标同样关键。其中之一,乳酸脱氢酶(LDH),是一个反映组织应激的广泛标志物,即便在考虑到其他血液检测时,它对肺部健康仍提供了有用信息。

从复杂模型到简单决策规则

在确定了最强的预测因子后,团队构建了一个单一且易读的决策树,仅使用排名前30%的特征。这个更简化的模型的表现几乎可以与使用全部25个变量的模型相媲美,但结构便于临床人员直观检视。决策树以年龄为根节点,然后根据身高、LDH水平、体重和教育程度等因素分支。沿着每个分支可以到达“叶”节点,这些叶节点对应气道阻塞概率高或低的群体。例如,超过某一年龄的老年人,或年龄较轻但身高较矮且具有特定化验模式的人,形成了更常见阻塞性气道问题的群体。作者强调,其中一些标志物,尤其是LDH,并非肺部特异性,更可能反映整体健康状况而非直接的肺部损伤。

Figure 2
Figure 2.

这对日常体检意味着什么

研究表明,可以将常规体检数据转化为一套可解释的规则,用于提示可能需要更深入肺部评估(例如完整肺功能检测或转诊至专科)的非吸烟者。该模型并非旨在替代肺功能检测或作出确诊,而是作为一种智能分诊助手,帮助医生注意到那些可能会被忽视的高风险个体。由于该方法基于常见测量并强调清晰的逐步决策路径,它有望适应实际筛查场景。未来工作需要在更长期和更多样化的人群中验证这些发现,但这项研究为透明的人工智能如何支持更早发现无声肺部问题提供了有希望的示例。

引用: Chang, CY., Shen, HS., Kuo, YL. et al. Interpretable machine learning based decision tree model for predicting obstructive airway disease in a large non-smoking health screening population. Sci Rep 16, 12807 (2026). https://doi.org/10.1038/s41598-026-43633-2

关键词: 阻塞性气道疾病, 非吸烟者肺部健康, 可解释的机器学习, 决策树筛查, 体检数据