Clear Sky Science · he
ניתוח השוואתי של מודלים מבוססי נתונים לחיזוי הישרדות בסרטן השד
מדוע המחקר הזה חשוב לבריאות נשים
סרטן השד הוא כיום הסרטן המאובחן ביותר בקרב נשים ברחבי העולם, ובמדינות עם משאבים רפואיים מצומצמים הוא לעתים קרובות מאובחן בשלב מאוחר ומטופל בתנאים קשים. המחקר מתמקד בנשים באתיופיה ושואל שאלה של חיים או מוות: על סמך המידע שהרופאים אוספים כבר על המטופלת, האם כלים מודרניים מבוססי נתונים יכולים לחזות ביתר דיוק מי בסיכון הגבוה למות מסרטן השד? חיזויים מדויקים יותר יכולים לעזור לרופאים לתת עדיפות לטיפולים מוגבלים, לקבוע מעקב צמוד יותר לחולות הפגיעות ביותר, ולספק לנשים מידע ברור יותר לגבי תחזית המחלה.
נשים, בתי חולים ותיקים רפואיים יומיומיים
החוקרים ניתחו תיקים רפואיים של 1,164 נשים שטופלו בסרטן השד בין השנים 2019–2024 בשני בתי חולים מרכזיים באתיופיה. עבור כל אישה הם עקבו כמה זמן חיה לאחר האבחון והאם מתה במהלך תקופת המעקב או הייתה עדיין בחיים כאשר איסוף הנתונים הסתיים. לצד התוצאה הזו השתמשו החוקרים במידע קליני וחברתי שכיח שרשומות בתי החולים באופן שגרתי: גיל, גודל הגידול, שלב הסרטן, האם הסרטן התפשט לאיברים מרוחקים (גרורות) או לבלוטות לימפה, מחלות נוספות, מצב משפחתי, הרגלי חיים כמו עישון או שימוש בחאט, והאם האישה הניקה. כל אלה פרטים שניתן לאסוף ללא בדיקות יקרות, מה שהופך כלי חיזוי מבוססי נתונים לריאלי בהקשרים עם משאבים מוגבלים.

שיטות ישנות וחדשות לניתוח סיכויי הישרדות
באופן מסורתי רופאים וסטטיסטיקאים משתמשים בשיטות ניתוח הישרדות כגון עקומות Kaplan–Meier ומודל הסיכונים הפרופורציונליים של קוקס כדי להבין כמה זמן חולים חיים עם מחלה ואילו גורמים משפיעים על הזמן הזה. שיטות אלה יחסית קלות לפרשן אך מתקשות כאשר גורמים רבים מתקיימים באינטראקציות מורכבות ולא‑ליניאריות, כפי שקורה לעתים קרובות בטיפול בסרטן בשדה האמיתי. המחברים השוו גישות קלאסיות אלה למודלים גמישים יותר של למידת מכונה, כולל יערי שרידות אקראיים ומודלים עמוקים לניתוח הישרדות, וכן כלים סטנדרטיים של סיווג כמו מכונות וקטורים תומכות, יערות אקראיים, XGBoost ו‑LightGBM. כל המודלים אומנו על חלק מהנתונים ונבחנו על מקרים שלא נראו בעבר, וביצועיהם הוערכו באמצעות מדדים שתופסים גם עד כמה הם מדורגים את החולות לפי סיכון וגם עד כמה זמני ההישרדות החזויים תואמים את המציאות.
אילו גורמים מעצבים את ההישרדות ביותר?
בכלל האוכלוסייה בלטו מספר דפוסים עוד לפני החלת המודלים המתקדמים. נשים עם גידולים גדולים יותר, מעורבות רחבה יותר של בלוטות לימפה, או סרטן שכבר התפשט (גרורות) חוו הישרדות גרועה משמעותית. אלה שאובחנו בשלב IV היו בעלות סיכון גבוה במיוחד למות במהלך המעקב, בעוד נשים עם מחלה בשלב I הציגו תוצאות טובות בהרבה. גיל מבוגר, במיוחד מגיל 45 ומעלה, ונוכחות מחלות כרוניות נוספות החמירו גם הן את ההישרדות. הרגלי חיים כמו עישון, צריכת אלכוהול או שימוש בחאט נקשרו לתוצאות גרועות יותר. נשים נשואות נטו לחיות זמן רב יותר מנשים רווקות, גרושות או אלמנות, מה שמדגיש ממצאים ממדינות אחרות שלעיתים תמיכה חברתית משפרת הישרדות על־ידי סיוע בשמירה על המשך הטיפול.

מה הוסיפו האלגוריתמים החכמים
בהשוואת המודלים נמצאו יערי שרידות אקראיים — שיטה המגדלת עץ החלטה רב לוחי עבור הישרדות ומשלבת את תוצאתם — כספקים החיזויים המדויקים ביותר למשך החיים הצפוי של המטופלות. שיטה קרובה, יערות אקראיים המשמשים כסווג, הייתה הטובה בזיהוי הנבדלות בין נשים בסיכון גבוה לנמוך. כדי למנוע את בעיית “הקופסה השחורה” השתמשו החוקרים בטכניקת SHAP כדי לזהות על אילו גורמים המודלים נשענו ביותר. במודלים החזקים ביותר אותן תכונות עלו שוב ושוב: גיל, גודל הגידול, גרורות, מעורבות בלוטות לימפה, שלב כללי ונוכחות מחלות נוספות. תכונות חברתיות כמו מצב משפחתי והרגלים מסוימים גם כן תרמו, אך במידה פחותה. למעשה, המודלים למדו וכמו כן כימתו את אותות הסיכון המרכזיים שאליהם קליניקאים מקדישים תשומת לב, בעוד שהם גם שקללו את השילובים העדינים ביניהם.
מה המשמעות עבור מטופלות ומרפאות
מסקנת המחקר היא שלנשים אתיופיות עם סרטן השד, מודלים מבוססי נתונים המותאמים לחיזוי זמן־עד־מוות — ובמיוחד יערי שרידות אקראיים — יכולים לספק הערכות סיכון מדויקות יותר ועדיין ניתנות לפרשנות מאשר שיטות מסורתיות בלבד. מאחר שהמודלים משתמשים במידע שכבר נאסף במסגרת הטיפול השגרתי, ניתן לשלבם בכלים פשוטים שידגישו מטופלות בסיכון גבוה, יעזרו לרופאים להחליט מי זקוק להפניה מהירה יותר או לטיפול אינטנסיבי יותר, וינחו שיחות כנות אך מותאמות אישית על התחזית. אמנם לעבודה יש מגבלות — היא לא כללה נתונים גנטיים ותמונתיים והסתמכה על רשומות רטרוספקטיביות — אך היא מראה שלמידת מכונה מיושמת בקפידה יכולה להפוך נתוני בית חולים שגרתיים לתמיכה מעשית בטיפול בסרטן בהקשרים עם משאבים מוגבלים.
ציטוט: Takele, K., Chen, DG. A comparative analysis of data-driven models for breast cancer survival prediction. Sci Rep 16, 10114 (2026). https://doi.org/10.1038/s41598-026-40565-9
מילות מפתח: הישרדות בסרטן השד, למידת מכונה, יער שרידות אקראי, אתיופיה, גורמי סיכון קליניים