Clear Sky Science · zh

在心脏疾病分类中使用特征选择与集成方法并保持数据平衡的重要性:不同机器学习技术的比较分析

· 返回目录

为何这对普通人的心脏很重要

心脏病仍然是全球首要死因,但大多数参加健康调查或到诊所就诊的人,很少看到他们的回答被转化为早期预警。本研究提出了一个简单却有力的问题:如果我们清理并重新平衡大规模健康数据集、谨慎挑选最具判别力的风险因素,然后选择合适的计算模型,能否在识别出可能出现心脏问题的人方面取得明显更好的效果?

Figure 1
Figure 1.

把混乱的健康数据变成有用信息

研究人员使用了美国行为风险因素监测系统(BRFSS)的一个大型公开数据集,其中包含数千名成年人自报的健康与生活习惯信息。每位受访者由17个日常特征描述,例如年龄、吸烟与饮酒状况、睡眠时间、体育活动、糖尿病、肾脏疾病和整体自评健康状况,以及是否患有心脏病。与大多数现实世界的医疗记录一样,数据存在混乱:一些值缺失、一些人为明显异常,而且报告心脏病的人远少于未报告者。研究团队首先对数据进行了清洗、填补缺失值、剔除极端离群值,然后将记录划分为用于训练和测试模型的不同组。

解决罕见病例的不平衡问题

一个主要障碍是类别不平衡:无心脏病的人数远多于有心脏病的人。在这种情况下,模型可能仅通过大多时候预测“无病”就显得准确,却漏掉许多真实病例。为了解决这一点,作者使用了一种称为过采样的技术,它通过生成更为真实的合成“心脏病”样本,使训练数据中正负样本数量大致相等。这个平衡步骤提升了若干模型识别心脏病患者的能力,但单靠它并不能使预测变得足够精确或具有鉴别力。

Figure 2
Figure 2.

挑选最具判别力的风险因素

研究接着探讨了哪些个人信息对预测最重要。作者测试了三类统计工具,这些工具对每个特征与心脏病的关联强度进行评分。他们单独评估这些方法,并在八种不同的并集与交集中进行比较,实质上是在问:“如果我们保留任何方法标记的所有特征,会怎样?”与“如果我们仅保留所有方法都同意的特征,会怎样?”年龄段、整体自评健康、行走困难、卒中史、糖尿病、肾脏疾病、体重指数以及某些生活方式指标在这些方法中反复出现,成为最具信息量的信号。

机器学习模型的正面较量

在数据平衡并经过谨慎特征选择后,团队比较了七种常用机器学习方法:逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、人工神经网络和k近邻。他们使用常见指标进行评估:总体准确率、阳性预测的精确度(精确率)、检测到真实心脏病病例的比例(召回率),以及模型在所有阈值下区分有病与无病能力的总体表现(ROC–AUC分数)。一旦应用了特征选择,随机森林和决策树始终表现出色,尤其是在特征选择过程中包含基于ANOVA的方法时。在最佳设置下,随机森林达到了约92%的准确率、93%的召回率和0.92的AUC,明显领先于其他模型。

何时组合模型有益——何时无益

作者还探讨了“装袋”(bagging),这是一种创建众多略有差异的模型并将它们的投票结果合并的做法。这种集成技巧常用于降低像决策树这类模型的不稳定性。在本研究中,对于一些高方差模型,装袋带来了小幅提升,但并未显著改善其区分心脏病与健康个体的能力,尤其是在没有如上所述的谨慎特征选择时。事实上,仅依赖装袋有时会导致重要的阳性病例被忽略,而在医疗环境中这是不可接受的。

这对患者和医生意味着什么

对普通人而言,关键的信息是:我们如何准备和塑造数据可能比预测模型多么复杂更为重要。仅仅把复杂算法应用于不均衡、噪声大的健康记录是不够的。这项工作表明,平衡数据并谨慎选择一组有意义的、集中的风险因素——尤其是那些由基于ANOVA的方法强调的因素——可以使像随机森林和决策树这样相对直接的模型提供更可靠的心脏病预测。尽管这些结果仍需在其他人群和真实临床环境中验证,但它们为构建早期预警工具提供了实用路径,这类工具未来可能帮助医生更早发现高风险患者并更有效地制定预防措施。

引用: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4

关键词: 心脏病预测, 机器学习, 特征选择, 健康数据平衡, 随机森林模型