Clear Sky Science · ru

Классификация женского обрезания на основе машинного обучения в 11 странах Суб‑Сахарской Африки с использованием данных демографических и медицинских обследований

· Назад к списку

Почему это исследование важно

Во многих регионах Африки и мира миллионы девочек по‑прежнему подвергаются женскому генитальному истязанию — глубоко вредной практике с пожизненными физическими и эмоциональными последствиями. Правительства и сообщества стремятся положить ей конец, но ресурсы ограничены, а надежные данные о том, где девочки находятся в наибольшем риске, часто трудно получить. В этом исследовании показано, как современные инструменты поиска закономерностей, известные как машинное обучение, могут просеивать большие опросы о здоровье, чтобы выявлять, какие матери, семьи и сообщества с наибольшей вероятностью будут практиковать обрезание, — и где профилактические усилия могут спасти наибольшее число девочек от вреда.

Понимание скрытой практики

Женское генитальное истязание (ЖГИ) включает преднамеренное повреждение или удаление частей внешних женских половых органов по немедицинским причинам. Оно признается нарушением прав человека и связано с тяжелыми краткосрочными проблемами, такими как боль, сильное кровотечение, инфекции и даже смерть, а также с долгосрочными осложнениями — сложностями при родах, бесплодием и психологической травмой. Несмотря на то, что во многих странах существуют законы против ЖГИ, практика сохраняется в частях Суб‑Сахарской Африки, где общественное давление, традиции и представления о религии и браке могут перевешивать официальные запреты. Чтобы разрабатывать более эффективные программы профилактики, руководителям нужны инструменты, способные выявлять закономерности в том, кто находится в наибольшем риске, выходя за рамки простых национальных средних показателей.

Большие данные из повседневных семей

Исследователи опирались на Демографические и медицинские обследования — крупные репрезентативные исследования, которые посещают тысячи домохозяйств и опрашивают женщин об их жизни и здоровье. Они объединили недавние данные обследований (2015–2023) от 62 249 женщин в 11 странах Восточной и Западной Африки. Все респондентки были в возрасте 15–49 лет и имели как минимум одну дочь. Каждую мать спрашивали, подвергалась ли какая‑нибудь из её дочерей ЖГИ. Команда также собрала информацию о возрасте матери, о том, проживает ли она в сельской или городской местности, об уровне её образования и благосостояния домохозяйства, о том, кто является главой семьи, о её собственном статусе обрезания, доступе к СМИ, стране проживания и её взглядах и убеждениях относительно ЖГИ, включая мнение о том, требуется ли это её религией, и должна ли практика продолжаться или быть прекращена. Эти многочисленные данные стали исходным материалом для компьютерных моделей, которые учились различать семьи, где дочерей обрезали, и где нет.

Figure 1
Figure 1.

Обучение машин распознавать риск

Чтобы превратить этот богатый, но неупорядоченный набор данных в формат, пригодный для обучения компьютера, команда очистила, стандартизировала и закодировала ответы так, чтобы алгоритмы могли работать с числовыми и категориальными признаками. Они использовали метод SMOTE, чтобы модели не смещались в пользу большей группы семей, где дочери не были обрезаны. Затем протестировали семь различных типов классификационных моделей, включая простые подходы, такие как логистическая регрессия, и более гибкие — деревья решений, случайные леса, опорные векторы, k‑ближайших соседей, наивный Байес и XGBoost. Каждая модель обучалась на 80% данных и оценивалась на оставшихся 20%, с использованием нескольких метрик эффективности, измеряющих, как часто модель права, насколько хорошо она избегает пропуска истинных случаев и насколько четко разделяет семьи с более высоким и более низким риском.

Лучшая модель и факторы, на которые она опирается

Из всех протестированных подходов лучше всех показал себя алгоритм случайного леса — метод, объединяющий множество деревьев решений в один более стабильный предсказатель. Он правильно классифицировал матери примерно в 85% случаев и особенно хорошо выявлял тех, чьи дочери подверглись ЖГИ, демонстрируя высокую способность дифференцировать уровни риска в популяции. Но одна только точность недостаточна; специалистам общественного здравоохранения также нужно понимать, почему модель делает те или иные предсказания. Чтобы приоткрыть эту "черную коробку", авторы использовали метод интерпретируемости SHAP, который присваивает каждому фактору вклад в решение модели. Четыре элемента выделялись особенно: мнение матери о том, следует ли продолжать ЖГИ, страна её проживания, её собственный статус обрезания и убеждение, что практика требуется религией. Матери, поддерживавшие продолжение ЖГИ, живущие в странах с высокой распространенностью, сами подвергавшиеся обрезанию или считавшие практику религиозно обязательной, значительно чаще сообщали, что их дочерей обрезали.

Figure 2
Figure 2.

От чисел к действиям

Эти выводы дают четкие ориентиры для тех, кто работает над прекращением ЖГИ. Модель указывает, что изменение установок матерей — особенно тех, кто был обрезан, и тех, кто испытывает религиозное давление в пользу практики — может существенно повлиять на защиту девочек. Также подчеркнуто, что риск заметно различается между странами, что требует адаптированных, ориентированных на каждую страну стратегий, а не универсальных кампаний. Авторы предупреждают, что их данные перекрестного сечения не доказывают причинно‑следственных связей и что классификации рисков следует использовать осторожно, чтобы не стигматизировать сообщества, но их работа показывает, как машинное обучение может помочь точно определить, где образование, вовлечение сообществ и взаимодействие с религиозными лидерами наиболее необходимы. Таким образом продвинутые инструменты анализа данных могут стать тихими, но важными союзниками в глобальных усилиях по искоренению ЖГИ и защите здоровья и прав девочек.

Цитирование: Gebrehana, A.K., Demoze, L., Yitageasu, G. et al. Machine learning based classification of female genital mutilation in 11 Sub-Saharan African countries using demographic and health survey data. Sci Rep 16, 9944 (2026). https://doi.org/10.1038/s41598-026-40723-z

Ключевые слова: женское генитальное истязание, машинное обучение, Суб‑Сахарская Африка, данные общественного здравоохранения, права женщин