Clear Sky Science · ru

Прогнозирование на основе машинного обучения и выявление факторов подростковой беременности в десяти странах Восточной Африки

· Назад к списку

Почему это исследование важно

Подростковая беременность формирует здоровье, образование и будущие доходы миллионов молодых людей, особенно в странах с низким и средним уровнем дохода. В Восточной Африке девочки значительно чаще становятся беременными в подростковом возрасте, чем во многих других регионах мира, что влечёт за собой последствия для семей и сообществ. В этом исследовании задаётся своевременный вопрос: могут ли современные вычислительные методы — в частности машинное обучение — помочь выявить, какие девочки находятся в зоне наибольшего риска и какие социально-экономические условия имеют решающее значение, чтобы ограниченные ресурсы направлять туда, где они принесут наибольшую пользу?

Figure 1
Figure 1.

Новый взгляд с помощью «умных» компьютеров

Исследователи проанализировали данные более чем 32 000 девочек в возрасте 15–19 лет из десяти стран Восточной Африки, используя крупные стандартизированные обследования здоровья, которые уже направляют многие решения в области общественного здравоохранения. Вместо опоры только на традиционные статистические методы они применили контролируемое машинное обучение — семейство методов, которые извлекают закономерности из примеров. Было протестировано несколько моделей, включая логистическую регрессию, деревья решений и более продвинутые инструменты, такие как Random Forests и XGBoost. Перед обучением моделей команда тщательно очистила и подготовила данные: заполнила пропущенные значения, преобразовала ответы опросов в компьютерные форматы, масштабировала числовые показатели, чтобы ни один фактор не доминировал, и сконструировала новые переменные, например объединённый показатель доступа к радио, телевидению и газетам как меру воздействия средств массовой информации.

Сбалансирование данных и обучение моделей

Одна из задач заключалась в том, что большинство опрошенных подростков не были беременны, что создавало дисбаланс между случаями «беременных» и «не беременных», способный вводить модели в заблуждение. Чтобы решить эту проблему, команда использовала методы, которые удаляют погранично-повторяющиеся примеры и генерируют реалистичные дополнительные случаи для меньшей группы, получая более равномерный и информативный набор данных. Затем данные были разделены так, что 80% использовались для обучения моделей, а 20% отложили для проверки того, как модели будут работать на новых, невиданных ранее наблюдениях. По ряду оценочных показателей — таких как общая точность, способность фиксировать истинные случаи и избегать ложных срабатываний — модель Random Forest оказалась наиболее надёжной.

Figure 2
Figure 2.

Что определяет риск подростковой беременности

Имея в распоряжении хорошо работающую модель, авторы сосредоточились на интерпретируемости: какие факторы наиболее влиятельны при прогнозировании подростковой беременности? С помощью отбора признаков и инструмента объяснения SHAP они последовательно выявили набор ключевых социальных и экономических условий. Среди них — незамужний статус, раннее начало сексуальной активности, низкий уровень образования матери, проживание в бедных домохозяйствах, большая численность семьи, жизнь в сельской местности и отчёт о том, что расстояние до медицинского учреждения является серьёзной проблемой. Ограниченное воздействие современных медиа и цифровых источников информации также повышало риск. Напротив, текущее использование современных методов планирования семьи было связано с более низкой вероятностью подростковой беременности, что указывает на защитный эффект доступа к контрацепции и её принятия.

Различия между странами и устойчивость модели

Данные показали, что подростковая беременность распределена неравномерно по Восточной Африке. Кения продемонстрировала самый высокий уровень — примерно одна из пяти подростковых девочек — тогда как в этом наборе данных у Малави был самый низкий показатель. Тем не менее те же общие факторы риска встречались по всему региону. Модель Random Forest уловила эти закономерности с высокой точностью (близкой к 90%) и хорошей способностью отличать подростков с высоким риском от тех, кто находится в меньшей зоне риска. Поскольку модель многократно тестировали на разных поднаборах данных, авторы утверждают, что её производительность, вероятно, сохранится в схожих реальных условиях, хотя анализ не может доказать причинно-следственные связи.

Что это значит для девочек и сообществ

Проще говоря, исследование делает вывод, что подростковая беременность в Восточной Африке тесно связана с бедностью, ограниченным доступом к образованию, ранним началом сексуальной активности, проживанием в сельской местности, плохим доступом к медицинским услугам и нехваткой информации через современные медиа — в то время как современные методы контрацепции помогают снизить риск. Показав, что компьютерные модели могут надёжно обнаруживать эти закономерности в крупных национальных опросах, работа предлагает практический путь вперёд: правительства и организации здравоохранения могли бы использовать аналогичные инструменты, чтобы выявлять наиболее уязвимые места, расширять дружественные к молодёжи репродуктивные услуги в сельской местности, укреплять школьное образование по вопросам сексуального здоровья и использовать радио, телевидение и мобильные каналы для распространения точной, свободной от стигмы информации. В совокупности эти меры могут помочь большему числу подростков избежать непреднамеренной беременности и сохранить контроль над своим здоровьем и будущим.

Цитирование: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x

Ключевые слова: подростковая беременность, Восточная Африка, машинное обучение, репродуктивное здоровье, социальные детерминанты