Clear Sky Science · zh
可解释机器学习用于中国中老年人长期心血管疾病风险预测:基于 9 年纵向队列研究的网络风险计算器
为什么预测心脏风险很重要
心血管疾病已成为中国的首要死因,尤其在中老年人群中更为突出。然而,医生常用的大多数预测工具是基于西方人群建立的,对中国成年人并不十分适用。本研究探讨现代人工智能方法是否能为 45 岁及以上的中国成年人提供更准确且仍可解释的长期风险估算。
对老龄化心脏的全国性观察
研究者利用了中国健康与养老追踪调查(CHARLS),这是一项在大多数省份中持续跟踪数万名社区成年人进行的规模性调查。从中筛选出 8,080 名在 2011 年入组时无心血管疾病且年龄至少 45 岁的参与者,并对他们进行了为期九年的随访以记录新发的心脏病和中风病例。团队起初考虑了 77 项在门诊易于获取的信息,包括年龄、地区、既往疾病、情绪症状、睡眠习惯、身体测量和血液检查结果。经标准统计筛选后,将其精简为 11 项既实用又与未来心血管事件高度相关的关键因素。

教计算机识别模式
接着,研究人员测试了十种不同的基于计算机的预测方法,从传统的逻辑回归到更灵活的随机森林、梯度提升和神经网络等方法。他们将参与者分为用于建模的训练组和用于检验模型在新个体上表现的验证组。模型性能通过区分最终发生心血管疾病与未发生者的准确性、预测风险与实际事件发生率的一致性,以及这些预测在现实中用于决策(例如谁应接受额外预防)的实用性来评估。
哪些日常因素最重要
随机森林方法表现最佳,既具备较高的准确度,又在识别高危个体与降低误报之间取得最佳平衡。为揭示该方法的内部机制,团队采用了一种称为 SHAP 的解释技术,为每个风险因素分配对最终预测的贡献。该分析显示,腰围是影响最大的单一因素:腰围每增加一厘米,九年风险显著上升,突出了腹部脂肪在该人群中的重要性。高甘油三酯、年龄较大和既往高血压史也是主要的风险驱动因素,而高水平的保护性 HDL 胆固醇则与较低风险相关。有趣的是,情绪和睡眠模式提供了独立的信息:较高的抑郁评分以及夜间睡眠过少或过多,即使在控制传统医学因素后,仍会使风险上升。

从研究模型到日常工具
由于所有 11 项预测因子在基层医疗中均可常规获得,团队将表现最好的模型转化为一个简易的网络计算器。用户输入年龄、地区、选定的病史项目、腰围、两项常见的血脂测量值、抑郁评分和常规睡眠时长。该工具随后返回该人在未来九年内发生心血管疾病的概率估算。作者强调,该计算器旨在辅助而非替代专业判断,应与完整的临床评估、本地资源和患者偏好一并使用。
这对患者和医生意味着什么
研究表明,精心设计并可解释的机器学习方法可以为中国中老年人提供比传统公式更准确的长期心脏和中风风险估算。研究还强调,腰围、血脂以及日常的睡眠与情绪状况都对未来心血管健康具有重要影响。通过将这些见解打包成一个免费的在线计算器,该工作为社区诊所和个人提供了一种低成本的方式,以便更早识别高风险人群并指导个性化预防策略,同时将最终决策权交由临床医生把握。
引用: Zhu, XY., Li, W., Pan, XY. et al. Explainable machine learning for long-term cardiovascular disease risk prediction in Chinese middle-aged and older adults: a 9-year longitudinal cohort study with web-based risk calculator. Sci Rep 16, 14998 (2026). https://doi.org/10.1038/s41598-026-45297-4
关键词: 心血管疾病, 机器学习, 风险预测, 腰围, 中国成年人