Clear Sky Science · de
Maschinelles Lernen zur Vorhersage und Identifizierung von Determinanten von Teenagerschwangerschaften in zehn ostafrikanischen Ländern
Warum diese Studie wichtig ist
Teenagerschwangerschaften prägen die Gesundheit, Bildung und zukünftigen Einkünfte von Millionen junger Menschen, insbesondere in Ländern mit niedrigem und mittlerem Einkommen. In Ostafrika werden Mädchen im Teenageralter deutlich häufiger schwanger als in vielen anderen Regionen der Welt, mit Folgen, die sich durch Familien und Gemeinschaften ziehen. Diese Studie stellt eine zeitgemäße Frage: Können moderne Computerverfahren – speziell maschinelles Lernen – dabei helfen, die Mädchen mit dem höchsten Risiko zu identifizieren und herauszufinden, welche sozialen und wirtschaftlichen Bedingungen am stärksten wirken, sodass knappe Ressourcen dort eingesetzt werden können, wo sie am meisten bewirken?

Ein neuer Blick mit intelligenten Computern
Die Forschenden analysierten Daten von mehr als 32.000 Mädchen im Alter von 15 bis 19 Jahren aus zehn ostafrikanischen Ländern und nutzten große, standardisierte Gesundheitsbefragungen, die bereits viele Entscheidungen im öffentlichen Gesundheitswesen leiten. Anstatt sich nur auf traditionelle Statistik zu stützen, verwendeten sie überwachtes maschinelles Lernen, eine Methodenfamilie, die Muster aus Beispielen lernt. Es wurden mehrere Modelle getestet, darunter logistische Regression, Entscheidungsbäume und fortgeschrittenere Verfahren wie Random Forests und XGBoost. Vor dem Training der Modelle bereinigte und bereitete das Team die Daten sorgfältig vor: fehlende Werte wurden ergänzt, Umfrageantworten in computerfreundliche Formate umgewandelt, numerische Werte skaliert, damit kein einzelner Faktor dominiert, und neue Variablen konstruiert, etwa die kombinierte Verfügbarkeit von Radio, Fernsehen und Zeitungen als ein Maß für Medienexposition.
Ausgleichen der Daten und Training der Modelle
Eine Herausforderung war, dass die meisten befragten Teenager nicht schwanger gewesen waren, wodurch ein Ungleichgewicht zwischen „schwanger“ und „nicht schwanger“ entstand, das Modelle in die Irre führen kann. Um dem zu begegnen, nutzte das Team Techniken, die sowohl randnahe Duplikate entfernen als auch realistisch wirkende zusätzliche Fälle für die kleinere Gruppe erzeugen, wodurch ein ausgewogenerer und informativerer Datensatz entstand. Anschließend wurde die Datenaufteilung so vorgenommen, dass 80 % zum Training der Modelle und 20 % zum Testen ihrer Leistungsfähigkeit an neuen, bisher ungesehenen Fällen verwendet wurden. Über mehrere Bewertungsmaße hinweg – etwa Gesamtkorrektheit, Sensitivität und Vermeidung von Fehlalarmen – hob sich das Random-Forest-Modell als am zuverlässigsten hervor.

Was das Risiko für Teenagerschwangerschaften antreibt
Mit einem leistungsfähigen Modell widmeten sich die Autorinnen und Autoren der Interpretierbarkeit: Welche Faktoren waren am einflussreichsten für die Vorhersage von Teenagerschwangerschaften? Mithilfe von Merkmal-Auswahlverfahren und einem Erklärungswerkzeug namens SHAP identifizierten sie durchgängig einen Kern sozialer und wirtschaftlicher Bedingungen. Dazu gehörten unverheiratet sein, früher Beginn sexueller Aktivität, geringe Bildung der Mutter, Leben in ärmeren Haushalten, größere Familiengröße, ländlicher Wohnort und die Angabe, dass die Entfernung zu einer Gesundheitseinrichtung ein großes Problem darstellt. Eingeschränkte Medien- und digitale Informationszugänge schienen ebenfalls das Risiko zu erhöhen. Dagegen war die aktuelle Nutzung moderner Verhütungsmethoden mit einer geringeren Wahrscheinlichkeit für Teenagerschwangerschaften verbunden, was darauf hindeutet, dass Zugang zu und Akzeptanz von Verhütung schützend wirken können.
Unterschiede zwischen den Ländern und Stärke des Modells
Die Daten zeigten, dass Teenagerschwangerschaften in Ostafrika nicht gleichmäßig verteilt sind. Kenia wies die höchste Rate auf, mit etwa einem von fünf Mädchen, während Malawi in diesem Datensatz die niedrigste Rate hatte. Dennoch traten dieselben allgemeinen Risikofaktoren in der gesamten Region auf. Das Random-Forest-Modell erfasste diese Muster mit hoher Genauigkeit (nahe 90 %) und einer starken Fähigkeit, risikoreiche von weniger risikoreichen Jugendlichen zu unterscheiden. Da das Modell wiederholt an unterschiedlichen Teildatensätzen getestet wurde, vertreten die Autoren die Auffassung, dass seine Leistungsfähigkeit in vergleichbaren realen Kontexten bestehen dürfte, auch wenn die Analyse keine Ursache-Wirkung-Beziehungen nachweisen kann.
Was das für Mädchen und Gemeinschaften bedeutet
Kurz gefasst kommt die Studie zu dem Schluss, dass Teenagerschwangerschaften in Ostafrika eng mit Armut, eingeschränkter Bildung, frühem sexuellem Beginn, ländlichem Wohnsitz, schlechtem Zugang zu Gesundheitsdiensten und fehlender Information durch moderne Medien verknüpft sind – während moderne Verhütung das Risiko senkt. Indem die Arbeit zeigt, dass Computermodelle diese Muster zuverlässig in großen nationalen Befragungen erkennen können, eröffnet sie einen praktischen Weg: Regierungen und Gesundheitsorganisationen könnten ähnliche Werkzeuge nutzen, um Orte mit besonders verletzlichen Mädchen zu identifizieren, jugendfreundliche reproduktive Gesundheitsdienste im ländlichen Raum auszubauen, schulische Sexualaufklärung zu stärken und Radio, Fernsehen sowie mobile Medien zu nutzen, um genaue, stigmafreie Informationen zu verbreiten. Gemeinsam könnten diese Maßnahmen helfen, mehr Jugendlichen ungeplante Schwangerschaften zu ersparen und ihnen Kontrolle über ihre Gesundheit und ihre Zukunft zu erhalten.
Zitation: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x
Schlüsselwörter: Teenagerschwangerschaft, Ostafrika, maschinelles Lernen, reproduktive Gesundheit, soziale Determinanten