Clear Sky Science · zh

使用 SHAP 值和 XGBoost 预测高龄孕妇妊娠期高血压疾病

· 返回目录

这对期待家庭为何重要

妊娠期高血压问题是全球范围内导致母婴疾病的重要原因,且随着越来越多女性选择在三十多岁甚至四十岁生育,这类问题变得更为常见。本项来自中国的研究提出了一个很实际的问题:能否仅凭一些简单的、日常可得的信息——例如早孕时的血压、体重、家族史和日常习惯——在不依赖昂贵化验或影像检查的情况下,估算出哪些高龄孕妇更可能发生这些疾病?如果可行,女性与临床医师就能更早采取行动以保护母婴安全。

Figure 1
Figure 1.

晚育年龄的血压风险

妊娠期高血压疾病包括妊娠期高血压和子痫前期等,可导致早产、胎儿生长受限以及母体的严重并发症。35 岁及以上女性的风险更高,受社会与政策变动影响,这一群体在中国迅速增长。然而,许多筛查项目侧重于血液检测和超声检查,这些在资源有限地区难以普及。与此同时,体育活动、工作模式、睡眠和屏幕时间等日常行为日益被认为对血压有重要影响,但很少被纳入正式的风险评估工具中。

对高龄妊娠的大规模长期观察

研究者随访了 2015 至 2019 年间在中国七家大型医院接受孕产保健的 11,000 多名 35 岁及以上孕妇。所有孕妇均为单胎妊娠,且孕前无长期高血压史。她们在孕期到产后不同节点共完成了五次详尽问卷,内容涵盖年龄、体重、教育、收入、既往病史与家族史,以及吸烟、饮酒、屏幕使用、工作时长、锻炼和睡眠等生活方式习惯。产检时在各个孕期测量血压。约有 9% 的受试者在孕期发展为妊娠期高血压疾病。

将日常数据转化为风险评分

为构建预测工具,研究团队首先用统计方法从众多潜在危险因素中筛选出信息量最大的变量。最终有九项脱颖而出:早孕期的收缩压与舒张压、体质指数(BMI)、高血压家族史、既往分娩情况、年龄、饮酒、辅助生殖以及每日屏幕使用时间。随后他们训练了一种现代机器学习算法 XGBoost,学习这些因素与之后发生高血压问题之间的关联。模型在独立数据上进行了性能测试,并用交叉验证来避免过拟合。总体来看,该工具能较好地区分高风险与低风险的孕妇,尤其在排除低风险人群方面表现良好。

Figure 2
Figure 2.

让“黑箱”模型变得可理解

机器学习模型常被批评为难以解释。为解决这一问题,作者使用了一种称为 SHAP 的技术,能可视化每个因素在多大程度上把个体孕妇的预测风险向上或向下推动。早孕期血压和体质指数是最强的驱动因素:数值越高,风险明显上升。家族史、年龄、既往分娩、辅助生殖、饮酒和屏幕使用时间也会增加风险,但作用较小。有意思的是,中等或较长工作时长的女性比失业者的妊娠期高血压发生率更低,这提示工作、收入与健康之间的关系复杂,挑战了“少工作总是更安全”的简单观点。

对护理和日常生活的意义

研究表明,可以用廉价且易于采集的信息构建一个对高龄孕妇妊娠期高血压具有合理预警能力的工具,而无需依赖专门检查。尽管该模型本身还不足以作为确诊工具——其敏感性有限——但它非常适合用于自我筛查和社区层面的项目,帮助识别极不可能出现问题的妇女以及那些应更密切关注的人群。对于处于三十多岁或四十岁的准妈妈,尤其是在资源有限的环境中,这种简单的个性化风险评估可支持及时的血压监测、生活方式调整以及何时寻求医学复诊的决策,从而有望降低妊娠期高血压对母婴的影响。

引用: Wang, J., Zhu, H. & Gu, W. Prediction of hypertensive disorders of pregnancy in advanced-age pregnant women using SHAP value and XGBoost. Sci Rep 16, 13971 (2026). https://doi.org/10.1038/s41598-026-44411-w

关键词: 高龄产妇, 妊娠期高血压, 风险预测模型, 生活方式因素, 产科中的机器学习