Clear Sky Science · he

הערכת יחס הסיכויים מתוך ציוני פלט של מודלי למידת מכונה: אפשרויות ומגבלות

· חזרה לאינדקס

מדוע זה חשוב לבריאות ולבינה מלאכותית

רופאים וחוקרי בריאות ציבור פונים יותר ויותר לכלי בינה מלאכותית כדי לגלות כיצד גורמי סביבה, כמו טמפרטורה או זיהום אוויר, משפיעים על בריאותנו. אך בעוד שכלי למידת מכונה מודרניים חזקים בחיזוי מי עשוי לחלות, הם לעתים קרובות אינם עונים על שאלה בסיסית שחשובה לקלינאים ולקובעי מדיניות: עד כמה חשיפה מסוימת מגדילה או מקטינה את הסיכון? המחקר הזה מתמודד עם הפער על‑ידי הצגה של שיטות לתרגום פלטים שחורים של מודלי למידת מכונה לפורמט המוכר של יחסי סיכויים, שעליו מבוססות החלטות רבות בתחום הרפואה והאפידמיולוגיה.

Figure 1
Figure 1.

מציוני תיבה שחורה לסיכון מובן

באפידמיולוגיה המסורתית, שיטת עבודה מרכזית בשם רגרסיה לוגיסטית מקשרת בין חשיפה (למשל, מזג אוויר קר) ותוצאת בריאות (כמו אשפוז) תוך בקרה על גורמים נוספים כגון גיל או זיהום. חוזקה העיקרי הוא בפענוח: היא מספקת ישירות יחס סיכויים (odds ratio), שאומר בכמה פעמים גבוהים (או נמוכים) ההסתברויות לחלות בקבוצה אחת לעומת אחרת. שיטות מודרניות של למידת מכונה, כגון יערות אקראיים (random forests) ואצת־גרדיאנט (gradient boosting), מסוגלות ללכוד תבניות מורכבות הרבה יותר בנתונים, אך בדרך כלל מחזירות ציונים חסרי משמעות פשוטה כסיכון, מה שמקשה לדווח על תוצאות בשפה שמקובלת על קלינאים. המחברים נועדו לחבר בין שני העולמות הללו.

דרכים חדשות לקריאת סיכון ממודלי למידת מכונה

החוקרים הציעו עשר דרכים שונות לשחזור יחסי סיכויים מתוך הציונים שמפיקים מסווגי למידת מכונה. שמונה מהאומדנים ה"היברידיים" הללו מתחילים מציוני המודל הגולמיים או מיושרים קליברציונית — מספרים בין אפס לאחד המשקפים עד כמה סביר שלכל אדם תהיה התוצאה — ואז כופלים סיכום פשוט של אותם ציונים בגורם התאמה שמקורו ברגרסיה לוגיסטית קונבנציונלית. גורם זה מתחשב בהבדלים בגיל, עונה ושאר משתנים רקע בין קבוצות חשופות ללא חשופות. שני אומדנים נוספים נסמכים על פונקציות תלות חלקית (partial dependence), כלי ששואל למעשה "מה המודל היה חוזה אם כולם היו ברמת החשיפה A לעומת רמה B, בזמן שכל השאר נותרו כפי שנמדדו?" על‑ידי השוואת תחזיות אלה, המחברים מקבלים יחס סיכויים מבוסס‑מודל שמשקף את עמדת מודל למידת המכונה כלפי הנתונים.

בדיקת השיטות על שאלות בריאות אמיתיות

כדי לבדוק עד כמה הרעיונות האלו עובדים, הקבוצה יישמה אותם על שלושה מודלים — רגרסיה לוגיסטית, יער אקראי ואצת־גרדיאנט — בשני מערכי נתונים אפידמיולוגיים גדולים מישראל. אחד עקב אחר בעלי‑שפה מבוגרים שאושפזו בשל בעיות נשימתיות או קרדיו‑ווסקולריות, תוך התמקדות בשאלה האם טמפרטורות נמוכות במיוחד הגדילו את הסיכוי לאשפוז. השני עקב אחרי יותר מ‑160,000 תינוקות כדי לבחון האם טמפרטורות גבוהות יותר בתקופת ההריון נקשרו להשמנה בגיל שנתיים. עבור כל צירוף של מאגר נתונים ומודל חישבו עשר הערכות של יחס הסיכויים וטווחי אי‑הוודאות שלהן, והשוו את התוצאות לאלה מרגרסיה לוגיסטית סטנדרטית, כאשר היא משמשת כאבן‑יסוד פרקטית.

Figure 2
Figure 2.

אילו כלי למידת מכונה התנהגו הכי טוב

צעד מרכזי במחקר היה "קליברציה" — עיצוב מחדש של הציונים הגולמיים של מודלי למידת מכונה כך שלמשל, בקרב אנשים שקיבלו ציון סיכון של 20%, בערך אחד מכל חמישה באמת יהיה עם התוצאה. המחברים בחנו שלוש שיטות קליברציה נפוצות ומצאו שטכניקה פשוטה בשם רגרסיה איזוטונית (isotonic regression) הביאה לעתים קרובות את ציוני היער האקראי והאצת־הגרדיאנט לקרבה הגבוהה ביותר להסתברויות תקינות. כאשר ציונים מיושרים אלה הוזנו לאומדני יחס הסיכויים שלהם, עלה דפוס חשוב: יחס הסיכויים המתקבלים מאצת‑הגרדיאנט נטו להתיישר עם אלה מרגרסיה לוגיסטית, כאשר כ‑87% מהערכות נכללו בטווח אמון 95% של מודל הלוגיסטי ולעתים ייצרו מרווחי אי‑וודאות מעט צרים יותר. לעומת זאת, יערות אקראיים הציגו התנהגות מפוזרת — תחזיות רבות קיפצו ל‑0 או ל‑1, מה שעשה כמה הערכות של יחס הסיכויים בלתי יציבות או מטעות, גם לאחר קליברציה.

מסקנות לשימוש בבינה מלאכותית בבריאות הציבור

המחקר מוכיח שאפשר ליהנות מכוח החיזוי של מודלי למידת מכונה מודרניים מבלי לוותר על בהירות הפרשנות, לפחות בתנאים נפוצים במחקר בריאות סביבתית. כשהם משולבים בקליברציה קפדנית ובאומדנים שהוצעו, מודלי אצת‑הגרדיאנט יכולים לספק יחסי סיכויים השווים ולעיתים מדויקים יותר מאלו של רגרסיה לוגיסטית קלאסית. עם זאת, לא כל אלגוריתמי למידת המכונה מתאימים למשימה זו באותה מידה: יערות אקראיים, בפרט, עשויים לדרוש זהירות נוספת או אסטרטגיות חלופיות כאשר משתמשים בהם להערכת גודל האפקט. עבור קובעי מדיניות וקלינאים, המסקנה המרכזית היא ששיטות AI מתקדמות לא חייבות להישאר תיבות שחורות — אם משתמשים בהן בתבונה, הן יכולות להניב מדדי סיכון ברורים ומוכרים שתומכים בקבלת החלטות בעולם האמיתי.

ציטוט: Nirel, R., Bauman, N., Morin, E. et al. Estimating the odds ratio from the output scores of machine learning models: possibilities and limitations. Sci Rep 16, 8922 (2026). https://doi.org/10.1038/s41598-026-38150-1

מילות מפתח: יחס הסיכויים, למידת מכונה, אפידמיולוגיה, הערכת סיכון, טמפרטורה ובריאות