Clear Sky Science · zh

基于机器学习的预测与识别:东非十国青少年怀孕决定因素

· 返回目录

本研究为何重要

青少年怀孕影响数百万年轻人的健康、教育和未来收入,尤其是在低收入和中等收入国家。与世界许多地区相比,东非女孩在青少年时期怀孕的可能性更高,其后果在家庭和社区中产生广泛影响。本研究提出了一个及时的问题:现代计算技术——特别是机器学习——能否帮助我们识别哪些女孩风险最高,以及哪些社会和经济条件最重要,从而使有限资源能被投放到最能发挥成效的地方?

Figure 1
Figure 1.

用智能计算机重新审视问题

研究人员分析了来自十个东非国家、超过32,000名15至19岁女孩的数据,采用的是已广泛用于公共卫生决策的大型标准化健康调查。研究没有仅依赖传统统计方法,而是转向监督式机器学习——一类从样本中学习模式的方法。研究中测试了多种模型,包括逻辑回归、决策树以及更先进的工具如随机森林和XGBoost。在训练这些模型之前,团队对数据进行了细致清理和预处理:填补缺失值,将调查回答转换为适合计算机处理的格式,对数值型变量进行缩放以避免单一因素占主导,并构建了新变量,例如将收听广播、观看电视和阅读报纸的综合情况合并为衡量社会媒体接触度的单一指标。

平衡数据并训练模型

一个挑战是大多数受访青少年并未怀孕,造成“怀孕”与“未怀孕”样本不平衡,这可能误导计算模型。为了解决这一问题,团队使用了既能去除边界重复样本又能为较小类别生成现实附加样本的技术,从而得到更均衡且信息量更大的数据集。随后将数据拆分为80%用于训练模型,20%留作测试以评估模型在未见样本上的表现。在多种评估指标上——例如总体正确率、模型抓取真实病例的能力以及减少误报的能力——随机森林模型表现出最可靠的性能。

Figure 2
Figure 2.

驱动青少年怀孕风险的因素

在得到性能良好的模型后,作者将重点放在可解释性上:哪些因素在预测青少年怀孕中最具影响力?通过特征选择和一种名为SHAP的解释工具,研究持续识别出一组核心的社会与经济条件。其中包括未婚状态、较早开始性行为、母亲受教育程度低、家庭贫困、家庭规模较大、居住在农村以及报告到医疗机构距离是一个大问题。接触社交媒体和数字信息源有限也似乎增加了风险。相反,目前使用现代计划生育方法与较低的青少年怀孕概率相关,表明避孕的可获得性和社会接纳可能具有保护作用。

各国差异与模型强度

数据表明,青少年怀孕在东非并非均匀分布。肯尼亚的发生率最高,大约每五名青少年女孩中就有一名,而在本数据集中马拉维的发生率最低。尽管如此,广泛的风险因素在该地区普遍存在。随机森林模型以接近90%的高准确率和强大的区分高风险与低风险青少年的能力捕捉到了这些模式。由于模型在不同数据子集上反复测试,作者认为其性能在类似的真实情境中也有望保持,即便该分析不能证明因果关系。

对女孩与社区的意义

简言之,研究得出结论:东非的青少年怀孕与贫困、受教育机会有限、早期性行为、农村居住、医疗服务可及性差以及通过现代媒介获取信息的缺乏密切相关——而现代避孕则有助于降低风险。通过展示计算模型能够在大型国家调查中可靠地识别这些模式,该工作提出了一条切实可行的路径:政府和卫生组织可以采用类似工具识别青少年最脆弱的地区,扩大面向青少年的生殖健康服务(尤其在农村地区)、加强学校中的性健康教育,并利用广播、电视和移动媒体传播准确且无污名的信息。综合这些措施,有助于更多青少年避免非意愿怀孕,掌控自己的健康与未来。

引用: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x

关键词: 青少年怀孕, 东非, 机器学习, 生殖健康, 社会决定因素