Clear Sky Science · it

Predizione basata sul machine learning e identificazione dei determinanti della gravidanza in adolescente in dieci paesi dell’Africa orientale

· Torna all'indice

Perché questo studio è importante

La gravidanza in adolescente condiziona la salute, l’istruzione e i guadagni futuri di milioni di giovani, soprattutto nei paesi a basso e medio reddito. Nell’Africa orientale, le ragazze hanno una probabilità molto più alta di rimanere incinte durante l’adolescenza rispetto a molte altre aree del mondo, con conseguenze che si ripercuotono su famiglie e comunità. Questo studio pone una domanda attuale: le tecniche informatiche moderne — in particolare il machine learning — possono aiutarci a individuare quali ragazze sono più a rischio e quali condizioni sociali ed economiche contano di più, così da indirizzare risorse limitate dove possono avere il maggiore impatto?

Figure 1
Figure 1.

Uno sguardo nuovo con computer intelligenti

I ricercatori hanno analizzato dati provenienti da oltre 32.000 ragazze di età compresa tra 15 e 19 anni in dieci paesi dell’Africa orientale, utilizzando grandi indagini sanitarie standardizzate che già orientano molte decisioni di sanità pubblica. Invece di basarsi solo sulla statistica tradizionale, si sono rivolti al machine learning supervisionato, una famiglia di metodi che apprende pattern dagli esempi. Sono stati testati diversi modelli, tra cui regressione logistica, alberi decisionali e strumenti più avanzati come Random Forest e XGBoost. Prima di addestrare i modelli, il team ha accuratamente pulito e preparato i dati: ha imputato i valori mancanti, convertito le risposte dei sondaggi in formati leggibili dal computer, scalato le variabili numeriche in modo che nessun fattore dominasse e creato nuove variabili, ad esempio combinando l’accesso a radio, TV e giornali in una singola misura di esposizione ai media.

Bilanciare i dati e addestrare i modelli

Una sfida è stata che la maggior parte delle adolescenti intervistate non era rimasta incinta, creando uno sbilanciamento tra i casi “incinta” e “non incinta” che può fuorviare i modelli. Per affrontare questo problema, il team ha utilizzato tecniche che rimuovono esempi borderline duplicati e generano casi aggiuntivi realistici per il gruppo meno rappresentato, producendo un set di dati più equilibrato e informativo. Hanno quindi diviso i dati: l’80% è stato usato per addestrare i modelli e il 20% è stato tenuto da parte per testare come i modelli si comportavano su ragazze nuove e non viste. Su più misure di valutazione — come accuratezza complessiva, capacità di riconoscere i casi veri e riduzione dei falsi allarmi — il modello Random Forest è emerso come il più affidabile.

Figure 2
Figure 2.

Cosa determina il rischio di gravidanza in adolescente

Con un modello dalle buone prestazioni, gli autori si sono concentrati sull’interpretabilità: quali fattori influenzano maggiormente la previsione della gravidanza in adolescente? Usando selezione delle feature e uno strumento di interpretazione chiamato SHAP, hanno costantemente individuato un nucleo di condizioni sociali ed economiche. Tra queste figurano lo stato non coniugato, l’inizio dell’attività sessuale in età più giovane, livelli bassi di istruzione materna, la residenza in famiglie più povere, dimensioni familiari maggiori, la residenza in aree rurali e la segnalazione che la distanza da una struttura sanitaria è un problema importante. Anche l’esposizione limitata ai social media e alle fonti digitali di informazione sembrava aumentare il rischio. Al contrario, l’uso attuale di metodi contraccettivi moderni era associato a una minore probabilità di gravidanza in adolescente, suggerendo che l’accesso e l’accettazione della contraccezione possono avere un effetto protettivo.

Differenze tra paesi e robustezza del modello

I dati hanno mostrato che la gravidanza in adolescente non è distribuita uniformemente nell’Africa orientale. Il Kenya ha evidenziato il tasso più alto, con circa una ragazza su cinque fra le adolescenti, mentre il Malawi ha mostrato il tasso più basso in questo dataset. Tuttavia, gli stessi fattori di rischio generali sono emersi in tutta la regione. Il modello Random Forest ha catturato questi schemi con elevata accuratezza (vicina al 90%) e una forte capacità di distinguere le adolescenti ad alto rischio da quelle a basso rischio. Poiché il modello è stato testato ripetutamente su diversi sottoinsiemi dei dati, gli autori sostengono che le sue prestazioni probabilmente si manterranno in contesti reali simili, pur riconoscendo che l’analisi non può provare relazioni di causa ed effetto.

Cosa significa per le ragazze e le comunità

In termini semplici, lo studio conclude che la gravidanza in adolescente nell’Africa orientale è strettamente legata a povertà, istruzione limitata, inizio precoce dell’attività sessuale, residenza rurale, scarso accesso ai servizi sanitari e mancanza di informazioni tramite i media moderni — mentre la contraccezione moderna contribuisce a ridurre il rischio. Dimostrando che i modelli informatici possono individuare in modo affidabile questi pattern nelle grandi indagini nazionali, il lavoro suggerisce una strada pratica: governi e organizzazioni sanitarie potrebbero usare strumenti simili per identificare dove le ragazze sono più vulnerabili, ampliare i servizi sanitari riproduttivi a misura di giovane nelle aree rurali, rafforzare l’educazione sessuale basata sulla scuola e sfruttare radio, TV e media mobili per diffondere informazioni accurate e non stigmatizzanti. Insieme, queste azioni potrebbero aiutare più adolescenti a evitare gravidanze indesiderate e a mantenere il controllo sulla propria salute e sul proprio futuro.

Citazione: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x

Parole chiave: gravidanza in adolescente, Africa orientale, machine learning, salute riproduttiva, determinanti sociali