Clear Sky Science · fr
Prédiction basée sur l’apprentissage automatique et identification des déterminants des grossesses chez les adolescentes dans dix pays d’Afrique de l’Est
Pourquoi cette étude est importante
La grossesse chez les adolescentes façonne la santé, l’éducation et les revenus futurs de millions de jeunes, en particulier dans les pays à revenu faible ou intermédiaire. En Afrique de l’Est, les filles ont beaucoup plus de chances de tomber enceintes durant l’adolescence que dans de nombreuses autres régions du monde, avec des conséquences qui se répercutent sur les familles et les communautés. Cette étude pose une question d’actualité : les techniques informatiques modernes — en particulier l’apprentissage automatique — peuvent-elles nous aider à repérer les filles les plus à risque et à identifier les conditions sociales et économiques les plus déterminantes, afin que des ressources limitées soient dirigées là où elles seront le plus efficaces ?

Un regard neuf grâce à des ordinateurs intelligents
Les chercheurs ont analysé les données de plus de 32 000 filles âgées de 15 à 19 ans dans dix pays d’Afrique de l’Est, en utilisant de larges enquêtes sanitaires standardisées qui guident déjà de nombreuses décisions de santé publique. Plutôt que de s’appuyer uniquement sur des méthodes statistiques traditionnelles, ils ont recours à l’apprentissage supervisé, une famille de méthodes qui apprennent des motifs à partir d’exemples. Plusieurs modèles ont été testés, notamment la régression logistique, les arbres de décision et des outils plus avancés comme les Random Forests et XGBoost. Avant l’entraînement, l’équipe a soigneusement nettoyé et préparé les données : comblement des valeurs manquantes, conversion des réponses d’enquête en formats compatibles avec l’ordinateur, mise à l’échelle des variables numériques pour qu’aucun facteur ne domine, et création de nouvelles variables comme une mesure combinée d’accès à la radio, à la télévision et aux journaux pour évaluer l’exposition aux médias sociaux.
Rééquilibrer les données et entraîner les modèles
Un défi était que la plupart des adolescentes interrogées n’avaient pas été enceintes, ce qui créait un déséquilibre entre les cas « enceintes » et « non enceintes » pouvant induire les algorithmes en erreur. Pour y remédier, l’équipe a utilisé des techniques qui suppriment les doublons frontières et génèrent des cas supplémentaires réalistes pour le groupe minoritaire, produisant ainsi un ensemble de données plus équilibré et informatif. Ils ont ensuite scindé les données de manière à utiliser 80 % pour apprendre aux modèles et à réserver 20 % pour tester leurs performances sur des filles nouvelles et non vues. Sur plusieurs mesures d’évaluation — telles que la justesse globale, la sensibilité (détection des vrais cas) et la capacité à éviter les faux positifs — le modèle Random Forest s’est distingué comme le plus fiable.

Ce qui augmente le risque de grossesse chez les adolescentes
Avec un modèle performant en main, les auteurs se sont concentrés sur l’interprétabilité : quels facteurs influencent le plus la prédiction de grossesse chez les adolescentes ? En utilisant la sélection de variables et un outil d’explicabilité appelé SHAP, ils ont systématiquement identifié un ensemble central de conditions sociales et économiques. Celles-ci comprenaient le fait de ne pas être mariée, de commencer l’activité sexuelle à un plus jeune âge, de faibles niveaux d’éducation maternelle, la vie dans des ménages plus pauvres, la taille plus importante de la famille, la résidence en milieu rural et le signalement de la distance à un établissement de santé comme un obstacle important. Une exposition limitée aux médias sociaux et aux sources d’information numériques semblait aussi augmenter le risque. En revanche, l’utilisation actuelle de méthodes modernes de planification familiale était associée à une probabilité plus faible de grossesse chez les adolescentes, suggérant que l’accès à la contraception et son acceptation peuvent être protecteurs.
Différences entre pays et solidité du modèle
Les données ont montré que la grossesse chez les adolescentes n’est pas répartie uniformément en Afrique de l’Est. Le Kenya présentait le taux le plus élevé, soit environ une adolescente sur cinq, tandis que le Malawi affichait le taux le plus bas dans cet ensemble de données. Néanmoins, les mêmes facteurs de risque généraux étaient présents dans la région. Le modèle Random Forest a capturé ces motifs avec une grande précision (proche de 90 %) et une forte capacité à distinguer les adolescentes à haut risque de celles à faible risque. Parce que le modèle a été testé à plusieurs reprises sur différents sous-ensembles de données, les auteurs estiment que ses performances sont susceptibles de se maintenir dans des contextes réels similaires, même si l’analyse ne peut pas établir de relations de cause à effet.
Ce que cela signifie pour les filles et les communautés
En bref, l’étude conclut que la grossesse chez les adolescentes en Afrique de l’Est est étroitement liée à la pauvreté, à un accès limité à l’éducation, à un début précoce de l’activité sexuelle, à la résidence rurale, à un mauvais accès aux services de santé et à un manque d’information via les médias modernes — tandis que la contraception moderne contribue à réduire le risque. En montrant que des modèles informatiques peuvent repérer de manière fiable ces schémas dans de grandes enquêtes nationales, ce travail propose une voie pratique : les gouvernements et les organisations de santé pourraient utiliser des outils similaires pour identifier où les adolescentes sont le plus vulnérables, étendre les services de santé reproductive adaptés aux jeunes en zone rurale, renforcer l’éducation sexuelle en milieu scolaire et exploiter la radio, la télévision et les médias mobiles pour diffuser des informations exactes et sans stigmatisation. Ensemble, ces mesures pourraient aider davantage d’adolescents à éviter des grossesses non désirées et à garder le contrôle sur leur santé et leur avenir.
Citation: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x
Mots-clés: grossesse chez l’adolescente, Afrique de l’Est, apprentissage automatique, santé reproductive, déterminants sociaux