Clear Sky Science · pt
Predição baseada em aprendizado de máquina e identificação dos determinantes da gravidez na adolescência em dez países da África Oriental
Por que este estudo é importante
A gravidez na adolescência molda a saúde, a educação e os ganhos futuros de milhões de jovens, especialmente em países de baixa e média renda. Na África Oriental, as meninas têm muito mais probabilidade de engravidar na adolescência do que em muitas outras partes do mundo, com consequências que se propagam por famílias e comunidades. Este estudo aborda uma questão oportuna: técnicas computacionais modernas — especificamente aprendizado de máquina — podem nos ajudar a identificar quais meninas estão mais em risco e quais condições sociais e econômicas importam mais, para que recursos limitados sejam direcionados onde terão maior impacto?

Uma nova abordagem com computadores inteligentes
Os pesquisadores analisaram dados de mais de 32.000 meninas de 15 a 19 anos em dez países da África Oriental, usando grandes pesquisas padronizadas de saúde que já orientam muitas decisões de saúde pública. Em vez de depender apenas de estatísticas tradicionais, recorreram ao aprendizado supervisionado de máquina, uma família de métodos que aprende padrões a partir de exemplos. Vários modelos foram testados, incluindo regressão logística, árvores de decisão e ferramentas mais avançadas, como Random Forests e XGBoost. Antes de treinar esses modelos, a equipe limpou e preparou cuidadosamente os dados: preencheram valores ausentes, converteram respostas das pesquisas em formatos compatíveis com computadores, escalaram valores numéricos para que nenhum fator isolado dominasse e criaram novas variáveis, como a combinação do acesso a rádio, TV e jornais em uma única medida de exposição a meios de comunicação.
Balanceando os dados e treinando os modelos
Um desafio foi que a maioria das adolescentes pesquisadas não havia engravidado, criando um desequilíbrio entre os casos “grávida” e “não grávida” que pode confundir os algoritmos. Para contornar isso, a equipe usou técnicas que removem exemplos borderline duplicados e geram casos adicionais realistas para o grupo menor, produzindo um conjunto de dados mais equilibrado e informativo. Em seguida, dividiram os dados para que 80% fossem usados para treinar os modelos e 20% fossem reservados para testar o desempenho em meninas novas e não vistas. Em várias medidas de avaliação — como correção geral, sensibilidade para detectar casos reais e capacidade de evitar falsos positivos — o modelo Random Forest destacou-se como o mais confiável.

O que impulsiona o risco de gravidez na adolescência
Com um modelo com bom desempenho em mãos, os autores focaram na interpretabilidade: quais fatores foram mais influentes na previsão da gravidez na adolescência? Usando seleção de características e uma ferramenta de explicação chamada SHAP, eles encontraram de forma consistente um conjunto central de condições sociais e econômicas. Entre elas estavam não ser casada, iniciar a atividade sexual mais cedo, baixos níveis de escolaridade materna, viver em famílias mais pobres, maior tamanho da família, residir em áreas rurais e relatar que a distância até uma unidade de saúde era um problema importante. Baixa exposição a mídias sociais e fontes digitais de informação também pareceu aumentar o risco. Em contraste, o uso atual de métodos modernos de planejamento familiar esteve associado a menor probabilidade de gravidez na adolescência, sugerindo que acesso e aceitação de contraceptivos podem ser protetores.
Diferenças entre países e força do modelo
Os dados revelaram que a gravidez na adolescência não está uniformemente distribuída pela África Oriental. O Quênia apresentou a maior taxa, cerca de uma em cada cinco adolescentes, enquanto Malawi teve a menor taxa neste conjunto de dados. Ainda assim, os mesmos fatores de risco amplos apareceram em toda a região. O modelo Random Forest captou esses padrões com alta precisão (próxima de 90%) e forte capacidade de distinguir adolescentes com alto risco das de baixo risco. Como o modelo foi testado repetidamente em diferentes subconjuntos dos dados, os autores sustentam que seu desempenho provavelmente se manterá em cenários do mundo real semelhantes, embora a análise não possa provar relações de causa e efeito.
O que isso significa para meninas e comunidades
Em termos simples, o estudo conclui que a gravidez na adolescência na África Oriental está fortemente ligada à pobreza, escolaridade limitada, início precoce da atividade sexual, residência rural, acesso precário a serviços de saúde e falta de informação por mídias modernas — enquanto a contracepção moderna ajuda a reduzir o risco. Ao demonstrar que modelos computacionais podem identificar de forma confiável esses padrões em grandes pesquisas nacionais, o trabalho sugere um caminho prático: governos e organizações de saúde poderiam usar ferramentas semelhantes para localizar onde as adolescentes são mais vulneráveis, ampliar serviços reprodutivos amigáveis aos jovens em áreas rurais, fortalecer a educação sexual nas escolas e aproveitar rádio, TV e mídias móveis para divulgar informação precisa e sem estigma. Juntas, essas ações poderiam ajudar mais adolescentes a evitar gravidez indesejada e manter controle sobre sua saúde e seu futuro.
Citação: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x
Palavras-chave: gravidez na adolescência, África Oriental, aprendizado de máquina, saúde reprodutiva, determinantes sociais