Clear Sky Science · pl
Predykcja oparta na uczeniu maszynowym i identyfikacja czynników wpływających na ciążę wśród nastolatek w dziesięciu krajach Afryki Wschodniej
Dlaczego to badanie ma znaczenie
Ciąża w wieku nastoletnim kształtuje zdrowie, edukację i przyszłe dochody milionów młodych ludzi, zwłaszcza w krajach o niskich i średnich dochodach. W Afryce Wschodniej dziewczęta znacznie częściej zachodzą w ciążę w okresie dojrzewania niż w wielu innych częściach świata, co ma konsekwencje rozchodzące się po rodzinach i społecznościach. W badaniu postawiono aktualne pytanie: czy nowoczesne techniki komputerowe — w szczególności uczenie maszynowe — mogą pomóc wskazać, które dziewczęta są najbardziej narażone oraz które warunki społeczne i ekonomiczne mają największe znaczenie, aby ograniczone zasoby można było skierować tam, gdzie przyniosą największe korzyści?

Nowe spojrzenie przy pomocy inteligentnych komputerów
Naukowcy przeanalizowali dane od ponad 32 000 dziewcząt w wieku 15–19 lat z dziesięciu krajów Afryki Wschodniej, korzystając z dużych, ustandaryzowanych badań zdrowotnych, które już informują wiele decyzji w zakresie zdrowia publicznego. Zamiast polegać wyłącznie na tradycyjnych statystykach, sięgnęli po nadzorowane uczenie maszynowe — rodzinę metod uczących się wzorców na przykładach. Przetestowano kilka modeli, w tym regresję logistyczną, drzewa decyzyjne oraz bardziej zaawansowane narzędzia, takie jak Random Forest i XGBoost. Przed trenowaniem modeli zespół dokładnie wyczyścił i przygotował dane: uzupełniono brakujące wartości, przekształcono odpowiedzi z ankiet na formaty przyjazne dla komputerów, skalowano wartości numeryczne, by żaden pojedynczy czynnik nie dominował, oraz skonstruowano nowe zmienne, na przykład łączny wskaźnik dostępu do radia, telewizji i gazet jako pojedynczą miarę ekspozycji na media.
Zrównoważenie danych i trenowanie modeli
Jednym z wyzwań było to, że większość ankietowanych nastolatek nie była w ciąży, co powodowało niezrównoważenie między przypadkami „w ciąży” i „nie w ciąży”, mogące wprowadzać modele w błąd. Aby temu zaradzić, zespół zastosował techniki usuwania przygranicznych duplikatów oraz generowania realistycznych dodatkowych przypadków dla mniejszej grupy, tworząc bardziej wyrównany i informatywny zbiór danych. Następnie podzielili dane tak, że 80% posłużyło do nauczania modeli, a 20% odłożono do testowania, jak modele poradzą sobie z nowymi, niewidzianymi danymi. W różnych miarach oceny — takich jak ogólna poprawność, czułość (jak często model wykrywał prawdziwe przypadki) i zdolność unikania fałszywych alarmów — model Random Forest okazał się najbardziej niezawodny.

Co napędza ryzyko ciąży wśród nastolatek
Mając do dyspozycji dobrze działający model, autorzy skupili się na interpretowalności: które czynniki miały największy wpływ na przewidywanie ciąży wśród nastolatek? Przy użyciu selekcji cech i narzędzia wyjaśniającego SHAP konsekwentnie identyfikowano podstawowy zestaw warunków społecznych i ekonomicznych. Należały do nich: brak małżeństwa, wcześniejsze rozpoczęcie aktywności seksualnej, niski poziom wykształcenia matki, zamieszkiwanie w biedniejszych gospodarstwach domowych, większy rozmiar rodziny, życie na obszarach wiejskich oraz zgłaszanie, że odległość do placówki zdrowotnej stanowi poważny problem. Ograniczona ekspozycja na media społecznościowe i źródła informacji cyfrowej również wydawała się zwiększać ryzyko. Natomiast obecne korzystanie z nowoczesnych metod planowania rodziny wiązało się z niższym prawdopodobieństwem ciąży nastoletniej, co sugeruje, że dostęp do antykoncepcji i jej akceptacja mogą działać ochronnie.
Różnice między krajami i siła modelu
Dane wykazały, że ciąże wśród nastolatek nie są równomiernie rozłożone w Afryce Wschodniej. Kenia miała najwyższy odsetek — około jedna na pięć nastolatek — podczas gdy Malawi odnotowało najniższy odsetek w tym zbiorze danych. Mimo to te same ogólne czynniki ryzyka pojawiały się w całym regionie. Model Random Forest uchwycił te wzorce z dużą dokładnością (bliską 90%) i silną zdolnością rozróżniania nastolatek o wysokim i niskim ryzyku. Ponieważ model był wielokrotnie testowany na różnych podzbiorach danych, autorzy twierdzą, że jego wydajność prawdopodobnie utrzyma się w podobnych warunkach rzeczywistych, chociaż analiza nie może dowieść związków przyczynowo-skutkowych.
Co to oznacza dla dziewcząt i społeczności
Mówiąc krótko, badanie wnioskuje, że ciąże wśród nastolatek w Afryce Wschodniej są ściśle powiązane z ubóstwem, ograniczonym kształceniem, wczesnym rozpoczęciem aktywności seksualnej, zamieszkiwaniem obszarów wiejskich, słabym dostępem do usług zdrowotnych oraz brakiem informacji poprzez nowoczesne media — podczas gdy nowoczesna antykoncepcja pomaga zmniejszać ryzyko. Pokazując, że modele komputerowe potrafią wiarygodnie wychwycić te wzorce w dużych krajowych badaniach, praca wskazuje praktyczną drogę działania: rządy i organizacje zdrowotne mogłyby używać podobnych narzędzi do identyfikacji obszarów największej wrażliwości nastolatek, rozszerzać przyjazne młodzieży usługi zdrowia reprodukcyjnego na obszarach wiejskich, wzmacniać edukację seksualną w szkołach oraz wykorzystywać radio, telewizję i media mobilne do przekazywania rzetelnych, pozbawionych stygmatyzacji informacji. Wspólnie te kroki mogą pomóc większej liczbie młodych osób uniknąć niezamierzonych ciąż i zachować kontrolę nad swoim zdrowiem i przyszłością.
Cytowanie: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x
Słowa kluczowe: ciąża wśród nastolatek, Afryka Wschodnia, uczenie maszynowe, zdrowie reprodukcyjne, determinanty społeczne