Clear Sky Science · zh
一种可解释的人工智能框架:使用增强松鼠搜索特征选择进行缺血性心脏病预测
为何更智能的心脏检查很重要
心脏病仍然是全球首要杀手,但临床医生常常需要在有限的时间、大量检测结果和复杂的计算工具之间权衡。该研究展示了一种易于解释的人工智能系统,能够帮助医生早期识别缺血性心脏病,同时保持其推理过程的透明。该系统并非将决策隐藏在黑箱中,而是突出显示少数最重要的检测指标,帮助临床人员在不丧失信任或控制的情况下使用计算支持。

心脏问题及其背后的数据
缺血性心脏病发生于心脏血流减少,常由于动脉堵塞所致。医生会查看许多信息,例如年龄、血压、胆固醇、胸痛类型和心脏扫描结果。本研究使用的 UCI 心脏病数据集收集了 303 份患者记录,包含 13 项此类因素以及表示有无疾病的标签。虽然这些丰富信息有助于预测,但太多重叠或无助益的测量可能会让人和计算机都感到困惑,延缓分析并有时降低准确性。
清理与精简病历数据
在计算机学习之前,原始记录必须清理和重整。研究者使用从相似患者借用信息的方法填补缺失数值,将所有测量缩放到统一范围,把诸如胸痛类型之类的类别转换为数值形式,并仔细检查异常值以区分真实的极端情况与可能的错误。他们还通过生成更小群体的真实感增强样本来平衡病人和健康者的数量,并移除几乎重复的特征。最终得到的是一个整洁的表格,其中每一列都有意义并可用于分析。
飞行松鼠如何启发特征选择
研究的核心思想是计算机并不需要所有可用测量就能做出良好预测,而应自动搜索一小组最具信息量的特征。为此,作者采用了一种受飞行松鼠在森林中觅食方式启发的优化方法。在他们的增强松鼠搜索优化过程中,每只“松鼠”代表一组可能的特征子集,群体集体在搜索空间中滑翔,并在进展停滞时调整动作。表现最好的组合会被保留并进一步精炼,旨在找到仍能支持高精度决策的最小测量集合。

训练模型并打开黑箱
一旦松鼠启发的搜索选择出最优特征子集,就训练一个随机森林模型来预测谁患有心脏病。随机森林由许多略有差异的决策树组成,其投票合并形成最终预测,使结果对数据噪声具有鲁棒性。在所选特征上,模型可达约 96% 到 98% 的准确率,并在区分病人和健康者方面取得很高的评分。为使其逻辑易于理解,研究者随后应用了两种解释工具:一种叫 SHAP,展示哪些因素在整个数据集中最具影响力;另一种 LIME 则聚焦单个患者,显示其具体数值如何推动预测朝向更高或更低的风险。
这对患者与医生意味着什么
通俗地说,该研究构建了一个既精确又善于解释的心脏病预测助手。通过将输入精简为少数关键测量并使用清晰的可视化解释,系统不仅能告诉临床医生某患者可能患有缺血性心脏病,还能说明哪些发现(例如某次扫描结果或运动相关变化的某一水平)推动了该判断。准确性、简洁性与透明度的平衡使该方法更适合真实的临床环境,并可在未来扩展到更大的医院和更丰富的数据源,如可穿戴设备与影像检查。
引用: Cenitta, D., Arul, N., Arjunan, R.V. et al. An explainable artificial intelligence framework for ischemic heart disease prediction using enhanced squirrel search feature selection. Sci Rep 16, 15422 (2026). https://doi.org/10.1038/s41598-026-46823-0
关键词: 缺血性心脏病, 可解释人工智能, 心脏病预测, 特征选择, 随机森林