Clear Sky Science · zh

使用 GWO-WOA 算法调优超参数和 BPSO 进行特征选择的混合 LSTM-GRU 框架用于肺癌分类

· 返回目录

这对日常健康的重要性

早期发现肺癌可以挽救生命,但许多人直到为时已晚才接受高级影像检查。本研究探讨是否可以将简单的基于问卷的筛查——关于年龄、吸烟状况、症状和日常习惯——与现代人工智能结合起来,及早识别高风险人群。通过充分利用廉价的问卷和智能计算模型,这项工作指向更快捷、可及的筛查工具,未来可能为医生和公共卫生项目提供支持。

Figure 1
Figure 1.

把简单问题转化为有用信号

研究人员使用了来自 Kaggle 的两个公开数据集,总共涵盖超过 3,300 名受试者。与医学影像不同,每条记录包含了门诊表格上常见的 15 个条目:年龄、性别、吸烟状况、手指发黄、咳嗽、呼吸急促、胸痛等风险因素和症状,以及是否存在肺癌的标签。由于真实世界的调查数据存在杂乱,团队首先对数据进行了清洗,修补缺失项、删除重复记录,并统一两套数据集中答案的编码方式。他们还对数值进行了归一化处理,使各特征处于相似尺度,并采用平衡方法纠正较小数据集中对癌症病例的强烈偏斜,帮助模型避免只预测多数类的偏倚。

让计算机挑出最有信息量的问题

并非表格上的每个问题对识别疾病都同等重要,过多无关问题反而会干扰模型。为聚焦于最关键的信息,作者使用了一种受群体行为启发的搜索策略——二进制粒子群优化(BPSO)。简单来说,多个候选“问题集合”并行被评估,并在解空间中移动,模仿并改进表现最好的个体。随着迭代进行,该过程收敛到大约七个关键问题的紧凑集合,反复突显出吸烟、手指发黄、咳嗽、胸痛、喘鸣、呼吸急促和慢性疾病等特征。与使用全部 15 项问题相比,这些精简集合将准确率提升了若干个百分点,同时使最终模型更易解释且运行更快。

Figure 2
Figure 2.

为解读答案模式打造更智能的引擎

为了将问卷答案转化为二元的癌症预测,团队构建了一个混合模型,融合了两种常用于序列数据的深度学习单元:长短期记忆(LSTM)和门控循环单元(GRU)。尽管问卷答案并非像语音或视频那样的时间序列,但症状与习惯的组合仍会形成可视为短序列的模式。模型先将选定的问题输入能有选择地存储与遗忘信息的 LSTM 层,再通过计算步骤更少且成本更低的 GRU 层精炼这些模式。为避免凭经验反复试错,作者使用第二层受自然启发的搜索策略来调优关键设置——例如学习率、隐藏单元数量、批量大小和丢弃率——该策略结合了“灰狼”广泛探索的能力与“鲸鱼”精细调整的特点。这个联合优化器搜索在交叉验证中能持续带来高准确率的超参数组合。

系统的表现如何

训练完成后,混合 LSTM–GRU 模型与多个强基线进行了对比,包括独立的 LSTM 与 GRU 网络、卷积神经网络、传统支持向量机以及诸如随机森林和梯度提升等树模型。在较小的 309 人数据集上,该系统在留出测试集上对每个样本均作出正确分类,达到了 100% 的准确率、精确率、召回率和 F1 分数。在较大的 3,000 人数据集上,其表现仍接近完美,准确率约为 99.3%,其他评估指标亦同样很高,优于所有对比的深度学习与传统模型。作者还展示了他们的两阶段策略——先用群体搜索选择问题,再用灰狼与鲸鱼优化器调优混合网络——在重复交叉验证运行中比更简单的设置产生了更稳定的结果。

这对未来肺癌筛查的意义

通俗来说,这项工作表明,精心设计的人工智能系统可以读取普通问卷答案,在基准数据集中非常准确地区分有无肺癌的人群。它并不能替代影像检查、医生或临床试验,作者强调他们的数据有限,尚不足以直接用于医院。不过,该方法证明了将智能化问题选择与精细调优的深度学习引擎相结合,能够把低成本表单变成强有力的早期预警工具。通过在更大规模、临床策划的人群上进一步测试,并采用更好的可解释方法来说明模型为何将某人标记为高风险,类似系统未来可能有助于决定谁应转诊进行更详细的影像检查,从而支持更早的诊断,同时保持筛查的可负担性和微创性。

引用: Amrir, M.M.S., Ayid, Y.M., Elshewey, A.M. et al. A hybrid LSTM-GRU framework for lung cancer classification using GWO-WOA algorithm for hyperparameter tuning and BPSO for feature selection. Sci Rep 16, 8600 (2026). https://doi.org/10.1038/s41598-026-39020-6

关键词: 肺癌筛查, 问卷数据, 深度学习, 特征选择, 医学人工智能