Clear Sky Science · zh

基于聚类与回归的模型及早期心脏病预测的性能分析

2026-02-18 · 返回目录

为何及早发现心脏问题很重要

心脏病常在多年间悄然发展，当明显症状出现时，损伤可能已无法逆转。本研究探讨日常佩戴的体表传感器与智能数据分析如何协同工作，及早识别预警信号，为医护人员和患者争取更多干预时间。研究者通过结合两种不同的数据解析方法，旨在提高预测准确性，同时不增加真实临床场景中技术的使用难度。

从体感传感器到智能预警

研究背景是无线体域网络，其中贴在皮肤上的小型传感器记录心率、血压和心电等信号。这些传感器将测量值传至移动设备，再转发到医疗中心进行分析。关键思想是这些数值流可以揭示出在严重事件发生前很久就已出现的模式。作者聚焦于一个知名的心脏病数据集，选取了12个重要特征，包含胸痛类型、血压、胆固醇、血糖、运动诱发性胸部不适以及心电图上的变化等。

在患者数据中寻找隐含群体

研究团队并未将所有患者记录直接输入单一预测公式，而是先将相似患者归为一组。他们采用了一种称为K均值聚类的方法，根据测量值的相似程度将人分入不同簇，年龄在其中起到核心作用。例如，患者可以自然分为血压非常高、胆固醇高或心电模式特殊的群体。这个分组步骤有助于突显出哪些测量组合特别令人警惕。它还显示出某些范围——如血压高于150、胆固醇超过300或心电图出现特定改变——往往与更高风险相关。

教机器评估风险

在数据分组后，研究者应用多种机器学习方法，从以往病例中学习以预测新患者是否可能患有显著心脏病。他们比较了决策树、k近邻、支持向量机、逻辑回归、朴素贝叶斯和随机森林等方法。在他们的混合设计中，每位新患者首先被分配到最近的簇，然后在专为该类患者训练的随机森林模型上给出最终风险预测。数据经过仔细清洗、缩放，并划分为训练集和测试集，同时处理类别不平衡（健康患者多于患病患者），以免模型偏向多数类。

混合模型的表现如何

为评估成功，研究不仅考察总体准确率，还关注模型正确标记病患的频率（召回率）、正确判定健康者的能力（特异性），以及兼顾两者的指标（F1分数和ROC–AUC）。早期使用类似数据的研究通常准确率约为85%并难以改善这些精细指标。本研究中，聚类与随机森林结合的方法达到约91%的准确率，具有较强的召回率和很高的特异性。该模型的置信区间与更简单方法的区间不重叠，表明改进不太可能是偶然所得。同时，计算时间保持在毫秒到秒的实用范围，适用于实时或近实时的监测系统。

对患者和医生意味着什么

通俗地说，研究表明先让计算机将患者分入有意义的群体，然后再应用针对性预测规则，可以提高心脏病的早期发现准确性。该方法对连续监测场景尤其有前景，在这些场景中，可穿戴传感器在后台静默收集数据。尽管结果来自规模适中且结构化的数据集而非完整的临床病历，且作者也提醒可能存在的偏差，结论仍很明确：更智能地利用现有测量可以为医生提供更可靠的早期预警。随着更多工作和更大、更丰富的数据集，这类混合分析有望将原始传感器读数转化为及时、个性化的警报，从而在问题发生前预防心脏病发作及其他严重事件。

引用: Tolani, M., AlZahrani, Y., Suman, G. et al. Clustering-cum-regression based model and performance analysis for early prediction of heart disease. Sci Rep 16, 9494 (2026). https://doi.org/10.1038/s41598-026-40626-z

关键词: 心脏病预测, 可穿戴健康传感器, 机器学习, 医疗数据聚类, 随机森林模型