Clear Sky Science · he

חיזוי ומזהה מבוסס למידת מכונה של גורמי הריון בגיל הנעורים בעשר מדינות במזרח אפריקה

· חזרה לאינדקס

למה המחקר הזה חשוב

הריון בגיל הנעורים מעצב את הבריאות, ההשכלה וההכנסות העתידיות של מיליוני צעירים, במיוחד במדינות בעלות הכנסה נמוכה ובינונית. במזרח אפריקה, נערות נוטות בהרבה להיות בהריון בעשור השנים שלהן מאשר באזורים רבים אחרים בעולם, עם תוצאות שמרעידות משפחות וקהילות. המחקר הזה שואל שאלה דחופה: האם טכניקות מחשוב מודרניות — ובעיקר למידת מכונה — יכולות לעזור לזהות אילו נערות בסיכון הרב ביותר, ואילו תנאים חברתיים וכלכליים הם המשמעותיים ביותר, כך שניתן יהיה לכוון משאבים מוגבלים למקומות שבהם הם יועילו ביותר?

Figure 1
Figure 1.

מבט מחודש עם מחשבים חכמים

החוקרים ניתחו נתונים של יותר מ-32,000 נערות בגילאים 15–19 מעשר מדינות במזרח אפריקה, באמצעות סקרי בריאות גדולים ומאוחדים שכבר מנחים רבים מההחלטות בתחום הבריאות הציבורית. במקום להסתמך רק על סטטיסטיקה מסורתית, הם פנו ללמידת מכונה מנוטרת — משפחה של שיטות שלומדות דפוסים מתוך דוגמאות. נבדקו מספר מודלים, כולל רגרסיה לוגיסטית, עצי החלטה וכלים מתקדמים יותר כמו Random Forests ו-XGBoost. לפני אימון המודלים הקפיד הצוות לנקות ולהכין את הנתונים: השלים ערכים חסרים, המיר תשובות סקר לפורמטים ידידותיים למחשב, קנה ערכים מספריים כך שלא יישלטו על ידי גורם יחידי, ומהנדס משתנים חדשים כגון שילוב גישה לרדיו, טלוויזיה ועיתונים כמניע אחד לחשיפה למדיה חברתית.

איזון הנתונים ואימון המודלים

אתגר אחד היה שרוב הנחקרות לא היו בהריון, מה שיצר חוסר איזון בין מקרים של "בהריון" ל"לא בהריון" שעלול להטעות את המחשבים. כדי להתמודד עם זה השתמש הצוות בטכניקות שמסירות דוגמאות גבוליות כפולות ומייצרות מקרים נוספים ריאליסטיים עבור הקבוצה הקטנה יותר, וכך יצרו סט נתונים מאוזן ומאוד אינפורמטיבי יותר. הם חילקו את הנתונים כך ש-80% שימשו ללימוד המודלים ו-20% נשמרו לבדיקה כיצד המודלים יפעלו על נערות חדשות שלא נראו בעבר. לאורך מדדי הערכה מרובים — כגון נכונות כוללת, תדירות איתור מקרים אמיתיים, וכמה טוב נמנעים מאלארמים שגויים — בלט מודל ה-Random Forest כמסוגל והחשוב ביותר.

Figure 2
Figure 2.

מה מניע את הסיכון להריון בגיל הנעורים

עם מודל בעל ביצועים טובים ביד, המחברים התמקדו בפרשנות: אילו גורמים הם המשפיעים ביותר בניבוי הריון בגיל הנעורים? באמצעות בחירת תכונות וכלי הסבר בשם SHAP, הם גילו באופן עקבי סט מרכזי של מצבים חברתיים וכלכליים. אלה כללו היות לא נשואה, התחלת פעילות מינית בגיל צעיר יותר, רמות השכלה נמוכות של האם, מגורים במשקי בית עניים, גודל משפחה גדול יותר, מגורים בכפרים, ודיווח כי המרחק למתקן בריאות מהווה בעיה משמעותית. חשיפה מוגבלת למדיה חברתית ולמקורות מידע דיגיטליים גם היא נראתה כמעלה את הסיכון. לעומת זאת, שימוש נוכחי בשיטות מתקדמות של תכנון משפחה נקשר לסבירות נמוכה יותר להריון בגיל הנעורים, מה שמרמז שגישה וקבלה של אמצעי מניעה יכולים להוות גורם מגן.

הבדלים בין מדינות וחוזק המודל

הנתונים הראו שהריון בגיל הנעורים אינו מפוזר באופן אחיד במזרח אפריקה. קניה הציגה את שיעור ההורות הגבוה ביותר, כמות אחת מכל חמש נערות, בעוד שמלאווי הציגה את השיעור הנמוך ביותר במאגר הנתונים הזה. עם זאת, אותם גורמי סיכון רחבים הופיעו ברחבי האזור. מודל ה-Random Forest תפס דפוסים אלה בדיוק גבוה (קרוב ל-90%) ועם יכולת חזקה להבחין בין נערות בסיכון גבוה לנמוך. מאחר שהמודל נבדק שוב ושוב על תת-קבוצות שונות של הנתונים, המחברים טוענים שהביצועים שלו עתידים להחזיק במצבים דומים בעולם האמיתי, אף על פי שהניתוח לא יכול להוכיח יחסי סיבה ותוצאה.

מה זה אומר עבור נערות וקהילות

בהיבט הפשוט, המחקר מסיק שהריון בגיל הנעורים במזרח אפריקה קשור בקשר הדוק לעוני, השכלה מוגבלת, תחילת פעילות מינית מוקדמת, מגורים כפריים, גישה לקויה לשירותי בריאות וחוסר מידע דרך מדיה מודרנית — בעוד שאמצעי מניעה מודרניים מסייעים להקטין את הסיכון. בהוכחת היכולת של מודלים ממוחשבים לגלות דפוסים אלה בסקרים לאומיים גדולים, העבודה מציעה מסלול מעשי קדימה: ממשלות וארגוני בריאות יכולים להשתמש בכלים דומים כדי לזהות היכן נערות בסיכון הגבוה ביותר, להרחיב שירותי בריאות רבייתית ידידותיים לנוער באזורים כפריים, לחזק חינוך מיני מבתי־הספר, ולנצל רדיו, טלוויזיה ומדיה ניידת כדי להפיץ מידע מדויק וללא סטיגמה. יחד, צעדים אלה עשויים לסייע ליותר מתבגרות להימנע מהריון בלתי מתוכנן ולשמור על שליטה על בריאותן ועתידן.

ציטוט: Baykemagn, N.D., Gebiru, A.M., Getnet, M. et al. Machine learning-based prediction and identification of determinants of teenage pregnancy in ten East African countries. Sci Rep 16, 13128 (2026). https://doi.org/10.1038/s41598-026-43004-x

מילות מפתח: הריון בגיל הנעורים, מזרח אפריקה, למידת מכונה, בריאות רבייתית, גורמים חברתיים