Clear Sky Science · zh

基于机器学习的女性生殖器切割分类：使用人口与健康调查数据对11个撒哈拉以南非洲国家的研究

2026-02-19 · 返回目录

这项研究为何重要

在非洲和世界的部分地区，数百万女孩仍面临女性生殖器切割这一极其有害的做法，其对身体和心理都可能造成终生影响。各国政府和社区都希望制止这一做法，但资源有限，且关于哪些地区和人群面临最大风险的可靠数据往往难以获得。本研究展示了现代的模式发现工具——机器学习——如何从大型健康调查中筛选信息，辨识出哪些母亲、家庭与社区更可能延续这一做法，以及预防工作在哪些地方最有可能挽救更多女孩免受伤害。

理解一个隐蔽的做法

女性生殖器切割（FGM）指为非医疗原因故意损伤或切除女性外生殖器的部分。这被视为对人权的侵犯，并与严重的短期问题相关，如疼痛、大量出血、感染甚至死亡，以及诸如分娩困难、不孕和心理创伤等长期并发症。尽管许多国家已制定反对FGM的法律，但在撒哈拉以南非洲的部分地区该做法仍然普遍，社会压力、传统以及与宗教和婚姻相关的信念往往压倒官方规定。为设计更智能的预防项目，决策者需要能够识别高风险人群模式的工具，而不仅仅依赖简单的全国平均值。

来自普通家庭的大数据

研究人员利用了人口与健康调查（Demographic and Health Surveys），这类大规模、具有全国代表性的研究会走访数千户家庭，向女性询问她们的生活与健康情况。他们整合了2015–2023年间来自东部与西部非洲11个国家的62,249名女性的最新调查数据。所有受访者年龄在15–49岁之间，且至少有一名女儿。每位母亲被问及是否有任一女儿经历过FGM。研究团队还收集了母亲的年龄、城乡居住地、教育和家庭财富、家庭户主身份、母亲自身的割礼状态、媒体接触情况、所在国家以及她们对FGM的态度和信念，包括是否认为宗教要求FGM或是否支持继续该做法等。这些信息构成了计算机模型学习区分女儿被切割与未被切割家庭的原始材料。

教会机器识别风险

为了将这一丰富但杂乱的数据集转为计算机可学习的形式，研究团队对回答进行清理、标准化和编码，使数值和类别信息都可被算法理解。他们使用了一种称为SMOTE的技术，以确保模型不会简单地偏向样本量较大的未被切割家庭。随后，他们测试了七种不同类型的分类模型，包括像逻辑回归这样较为简单的方法，以及决策树、随机森林、支持向量机、k近邻、朴素贝叶斯和XGBoost等更灵活的模型。每个模型在80%的数据上训练，并在剩余20%上评估，使用多种性能指标来衡量模型的正确率、减少漏报真实病例的能力，以及在高风险与低风险家庭之间的区分清晰度。

表现突出的模型及其决策驱动因素

在所有测试的方法中，随机森林模型——一种将多棵决策树组合成更稳定预测器的方法——表现最佳。它在约85%的情况下正确分类母亲，并且在识别其女儿曾被FGM的母亲方面尤其有力，具备较高的风险区分能力。但单靠准确率是不够的；公共卫生官员还需要理解模型为何给出这些预测。为了解开这一“黑箱”，作者使用了一种可解释性方法称为SHAP，为每个因素分配对模型决策的贡献度。有四个要素尤为突出：母亲是否支持FGM继续存在、她所在的国家、她自身是否经历过FGM，以及她是否认为该做法是宗教所要求。支持继续FGM、来自高流行率国家、本人被切割或认为宗教要求FGM的母亲，报告其女儿被切割的可能性显著更高。

从数据到行动

这些发现为反对FGM的工作提供了明确的指南。模型表明，改变母亲的态度——尤其是那些自身被切割且感受到宗教压力而倾向继续该做法的母亲——可能对保护女孩产生强有力的效果。研究还强调了不同国家之间风险的显著差异，支持制定针对具体国家的策略，而非一刀切的宣传活动。作者同时提醒，横断面数据无法证明因果关系，任何风险分类在使用时都需谨慎以避免污名化社区，但他们的工作展示了机器学习如何帮助定位教育、社区参与与信仰层面外展最亟需的地方。通过这种方式，先进的数据工具可能成为全球终止FGM、保障女孩健康与权利的重要、低调的盟友。

引用: Gebrehana, A.K., Demoze, L., Yitageasu, G. et al. Machine learning based classification of female genital mutilation in 11 Sub-Saharan African countries using demographic and health survey data. Sci Rep 16, 9944 (2026). https://doi.org/10.1038/s41598-026-40723-z

关键词: 女性生殖器切割, 机器学习, 撒哈拉以南非洲, 公共卫生数据, 妇女权利