Clear Sky Science · sv
Maskininlärningsbaserad klassificering av kvinnlig könsstympning i 11 länder söder om Sahara med hjälp av Demographic and Health Survey‑data
Varför denna forskning är viktig
I delar av Afrika och världen utsätts fortfarande miljontals flickor för kvinnlig könsstympning, en djupt skadlig sedvänja med livslånga fysiska och emotionella konsekvenser. Regeringar och samhällen vill få ett slut på den, men resurserna är begränsade och pålitliga uppgifter om var flickor löper störst risk kan vara svåra att få fram. Den här studien visar hur moderna mönster‑sökningsverktyg, kända som maskininlärning, kan sålla i stora hälsoenkäter för att lyfta fram vilka mödrar, familjer och samhällen som mest sannolikt kommer att fortsätta praktiken — och var förebyggande insatser kan rädda flest flickor från skada.
Att förstå en dold praktik
Kvinnlig könsstympning (FGM) innebär att medvetet skada eller avlägsna delar av de yttre kvinnliga könsorganen av icke‑medicinska skäl. Det betraktas som ett brott mot mänskliga rättigheter och kopplas till allvarliga kortsiktiga problem som smärta, kraftig blödning, infektion och till och med dödsfall, liksom långsiktiga komplikationer som svårigheter vid förlossning, infertilitet och psykologiskt trauma. Trots att många länder har lagar mot FGM är det fortfarande vanligt i delar av Afrika söder om Sahara, där socialt tryck, tradition och föreställningar om religion och äktenskap kan övertrumfa officiella regler. För att utforma smartare förebyggande program behöver beslutsfattare verktyg som kan upptäcka mönster i vem som löper störst risk, bortom enkla nationella genomsnitt.
Stordata från vardagshem
Forskarna använde Demographic and Health Surveys, stora nationellt representativa studier som besöker tusentals hushåll för att fråga kvinnor om deras liv och hälsa. De kombinerade nyare enkätdata (2015–2023) från 62 249 kvinnor i 11 länder i öst‑ och västafrika. Alla var i åldern 15–49 och hade minst en dotter. Varje mor fick frågan om någon av hennes döttrar hade genomgått FGM. Teamet samlade också information om moderns ålder, om hon bodde på landsbygden eller i stad, hennes utbildning och hushålls‑förmögenhet, vem som var hushållsledare, hennes egen omskärningsstatus, tillgång till media, bosättningsland samt hennes attityder och uppfattningar om FGM, inklusive om hon såg det som religiöst påbjudet eller menade att det borde fortsätta eller upphöra. Dessa många informationsbitar bildade råmaterialet för datorprogram som skulle lära sig att skilja familjer där döttrarna blivit stympade från dem där de inte hade det.

Att lära maskiner känna igen risk
För att omvandla denna rika men röriga datamängd till något som en dator kunde lära sig från rensade, standardiserade och kodade teamet svaren så att både siffror och kategorier kunde förstås av algoritmer. De använde en teknik kallad SMOTE för att säkerställa att modellerna inte enbart lärde sig att favorisera den större gruppen familjer där döttrarna inte hade blivit stympade. De testade sedan sju olika typer av klassificeringsmodeller, inklusive enkla metoder som logistisk regression och mer flexibla som beslutsstammar, random forest, supportvektormaskiner, k‑närmsta grannar, Naive Bayes och XGBoost. Varje modell tränades på 80 % av data och utvärderades på de återstående 20 %, med flera prestationsmått som mäter hur ofta modellen har rätt, hur väl den undviker att missa verkliga fall och hur tydligt den skiljer högre‑risk från lägre‑risk familjer.
Den framstående modellen och vad som driver dess val
Bland alla testade angreppssätt presterade random forest‑modellen — en metod som kombinerar många beslutsstammar till en enda, mer stabil prediktor — bäst. Den klassificerade rätt modern i ungefär 85 % av fallen och var särskilt stark på att identifiera dem vars döttrar hade utsatts för FGM, med hög förmåga att skilja risknivåer i befolkningen. Men noggrannhet räcker inte; folkhälsoansvariga behöver också förstå varför modellen gör sina förutsägelser. För att öppna denna svarta låda använde författarna en tolkningsmetod kallad SHAP, som tilldelar varje faktor ett bidrag till modellens beslut. Fyra faktorer stack ut: moderns åsikt om huruvida FGM bör fortsätta, vilket land hon bor i, om hon själv har genomgått FGM och om hon tror att praktiken är religiöst påbjuden. Mödrar som stödde fortsatt FGM, bodde i länder med hög förekomst, själva var omskurna eller såg FGM som religionspåbjudet var mycket mer benägna att rapportera att deras döttrar hade blivit stympade.

Från siffror till handling
Dessa resultat översätts till tydlig vägledning för dem som arbetar för att få slut på FGM. Modellen antyder att förändrade attityder bland mödrar — särskilt de som själva blivit stympade och de som känner religiöst tryck att fortsätta praktiken — kan ha en stark effekt för att skydda flickor. Den visar också att risken skiljer sig kraftigt mellan länder, vilket understryker behovet av skräddarsydda, landspecifika strategier snarare än universella kampanjer. Författarna varnar för att deras tvärsnittsdata inte kan bevisa orsakssamband, och att riskklassificeringar måste användas varsamt för att undvika stigmatisering av samhällen, men deras arbete visar hur maskininlärning kan hjälpa till att peka ut var utbildning, samhällsengagemang och trosbaserad dialog är mest angeläget. På så vis kan avancerade dataverktyg bli tysta men viktiga allierade i den globala ansträngningen att stoppa FGM och skydda flickors hälsa och rättigheter.
Citering: Gebrehana, A.K., Demoze, L., Yitageasu, G. et al. Machine learning based classification of female genital mutilation in 11 Sub-Saharan African countries using demographic and health survey data. Sci Rep 16, 9944 (2026). https://doi.org/10.1038/s41598-026-40723-z
Nyckelord: kvinnlig könsstympning, maskininlärning, Söder om Sahara, folkhälsodata, kvinnors rättigheter