Clear Sky Science · zh
使用群体优化和随机森林分类器进行特征降维以早期预测糖尿病风险
为何及早发现糖尿病很重要
2 型糖尿病常常悄然出现,在确诊前就已对心脏、眼睛、肾脏和神经造成损害。医生通常依赖大量问诊和检测来评估某人的风险,这对患者和诊所都可能耗时。本研究探讨了如何用智能计算程序仅通过少量简单的“是/否”问题来标识早期糖尿病风险,从而可能使筛查更快、更便宜,并更容易在繁忙或资源有限的环境中部署。 
更聪明的糖尿病风险清单
研究人员使用了来自孟加拉国锡莱特一所糖尿病医院的真实世界数据集。数据集中每位 520 名受试者都被标注为早期糖尿病或非早期糖尿病。对每个人,医生记录了年龄和 15 项简单的临床体征与症状,例如多尿(polyuria)、异常口渴(polydipsia)、体重骤减、瘙痒、视力模糊和肥胖。这些条目大多是问卷中的“是/否”回答,使得这些数据类似于护士或卫生工作者在常规就诊时几分钟内即可采集的信息。
教计算机聚焦最重要的信息
研究团队没有默认将全部 16 项信息输入模型,而是提出了一个关键问题:这些特征中哪些对糖尿病风险的信息量最大?为此,他们将一种流行的机器学习方法——随机森林,与三种受动物行为启发的“群体”搜索策略结合:狐群优化器、蜜獾算法和金枪鱼群体优化(tuna swarm optimization)。这些群体像数字猎手一样,在大量可能的特征组合和模型设置中游走,寻找在最少输入下也能给出最佳预测的方案。系统反复将数据拆分为训练集和测试集,调优内部参数,并在多次运行中对哪些特征和参数值效果最好进行投票。
精简模型的表现如何
得到的三种模型——命名为 FOX_RF、HBA_RF 和 TSO_RF——均表现出高度准确性。在对完整数据集进行一次训练和测试时,基于金枪鱼的模型(TSO_RF)将所有人都正确分类,达到了 100% 的准确率、精确率和召回率。在作者采用更严格的 10 折交叉验证(模拟对未见数据的测试)时,TSO_RF 平均准确率仍超过 98%,略优于另外两种模型,并优于在相同数据集上先前发表的方法。重要的是,基于蜜獾的模型在仅使用 16 个特征中的 10 个时就达到了稳健的性能,而其他模型仅需 13 或 14 个特征。该降维意味着对患者提问更少,未来任何应用或设备的计算负担也更轻。 
揭秘“黑箱”内部
现代预测系统常常效果良好但难以解释。为此,研究人员使用了一种可解释人工智能方法 SHAP,衡量每个特征对模型对单个个体预测为糖尿病或非糖尿病的推动力度。在三种模型中都出现了相同的模式:多尿、异常口渴和性别始终对预测具有最强影响力,体重骤减、肌肉僵硬、易怒以及其他一些体征起到辅助作用。团队还检查了具体的错误分类——模型误判的案例,展示了这些关键症状的微小变化如何常常改变决策,从而揭示模型最敏感的地方以及临床上应谨慎对待的情形。
对日常医疗的意义
通俗地说,这项研究表明,经过精心设计的计算模型可以通过一份简短的以症状为基础的清单和少量人口学信息非常准确地识别早期糖尿病风险。通过剔除不太有用的问题并突出最具诊断意义的体征——尤其是多尿、异常口渴和性别——该方法可支撑诊所、社区健康项目乃至智能手机系统中的快速筛查工具。尽管该方法仍需在更大、更具多样性的人群中验证,但它指向了这样一个前景:早期糖尿病预警将更加精确且对患者的负担更小。
引用: Sarker, P., Nahid, AA., Choi, K. et al. Feature reduction using swarm optimization and random forest classifiers for early diabetes risk prediction. Sci Rep 16, 14355 (2026). https://doi.org/10.1038/s41598-026-35984-7
关键词: 糖尿病预测, 机器学习, 特征选择, 群体优化, 早期诊断