Clear Sky Science · he
חשיבותם של מאגרי נתונים מאוזנים עם בחירת תכונות ושיטות אנסמבל בסיווג מחלות לב באמצעות שיטות למידת מכונה שונות: ניתוח השוואתי
מדוע זה חשוב ללבבות של כולנו
מחלות לב נותרו ההרג הגדול ביותר בעולם, אך רוב האנשים שממלאים סקרי בריאות או מבקרים במרפאות לא רואים את תשובותיהם הופכות לאזהרות מוקדמות. מחקר זה שואל שאלה פשוטה אך חזקה: אם נקפיד לנקות ולאזן מאגרי נתונים בריאותיים גדולים, נבחר בקפידה את גורמי הסיכון המובהקים ביותר, ואז נבחר את סוג המודל המתאים, האם נוכל לשפר בצורה ניכרת את היכולת לזהות מי צפוי לפתח בעיות לב?

להפוך נתוני בריאות מבולגנים לשימושיים
החוקרים עבדו עם מאגר ציבורי גדול ממערכת סקרי גורמי סיכון התנהגותיים בארה"ב (BRFSS), המכיל דיווח עצמי של אלפי מבוגרים על בריאותם והרגליהם. כל אדם מתואר על ידי 17 תכונות יומיומיות כגון גיל, מצב עישון ושתייה, שעות שינה, פעילות גופנית, סוכרת, מחלת כליות והערכת בריאות כללית, יחד עם אינדיקציה האם יש לו מחלת לב. כמו ברוב רשומות הרפואה במציאות, הנתונים היו מבולגנים: חסרו ערכים בחלק מהרשומות, היו יוצאים דופן קיצוניים, ומיעוט גדול דיווח על מחלת לב בהשוואה לאלו שלא. הצוות תחילה ניקה את הנתונים, מילא ערכים חסרים, הסיר קיצוניים חריגים ואז חילק את הרשומות לקבוצות נפרדות לאימון ולבדיקה של המודלים הממוחשבים.
לתקן את בעיית המקרים הנדירים
מכשול מרכזי היה חוסר איזון: האנשים ללא מחלת לב היו רבים בהרבה מאלו עם מחלת לב. במצבים כאלה, מודל עלול להיראות מדויק פשוט על ידי הניחוש "אין מחלה" ברוב המקרים, בעוד שהוא מפספס מקרים אמיתיים רבים. כדי להתמודד עם זה, המחברים השתמשו בטכניקה הנקראת עוד-דגימה (oversampling), שיוצרת דוגמאות סינתטיות מציאותיות של המקרים הנדירים יותר (חולי לב), כך שנתוני האימון יכילו מספרים משווים של תוצאות חיוביות ושליליות. שלב האיזון הזה שיפר את יכולתן של מספר מודלים לזהות חולי לב, אך לבדו הוא לא ייצר תחזיות חדות או מפלגות באופן מהימן.

לבחור את גורמי הסיכון המדויקים ביותר
המחקר אז חקר אילו פריטי מידע על אדם חשובים ביותר לחיזוי. המחברים בחנו שלוש משפחות של כלים סטטיסטיים שמדרגים כל תכונה לפי חוזקה בקשר למחלת לב. הם העריכו כל שיטה בנפרד ובשמונה איחודים וחיתוכים שונים, במילים אחרות: "מה אם נשמור כל תכונה שמופיעה אצל לפחות אחת מהשיטות?" מול "מה אם נשמור רק את התכונות שעליהן כל השיטות מסכימות?" קבוצות גיל, הערכת בריאות כללית עצמית, קושי בהליכה, היסטוריה של שבץ, סוכרת, מחלת כליות, מדד מסת גוף וסמנים מסוימים של אורח חיים עלו שוב ושוב כמקורות האינפורמציה המובילים בין השיטות.
להעמיד מודלי למידה מכנית זה מול זה
עם נתונים מאוזנים ותכונות שנבחרו בקפידה, הצוות השווה בין שבע גישות למידת מכונה פופולריות: רגרסיה לוגיסטית, עצי החלטה, יערות אקראיים, naive Bayes, מכונות וקטור תמיכה, רשתות נוירונים מלאכותיות ושכנים k הקרובים. הם מדדו אותן באמצעות מדדים מקובלים: דיוק כולל, עד כמה תחזיות חיוביות נכונות (precision), כמה מקרים אמיתיים של מחלת לב נתפסו (recall), וכמה טוב המודלים הפרידו בין חולים ללא חולים על פני כל הספים (ROC–AUC). יערות אקראיים ועצי החלטה עלו בהתמדה לראש רשימת המנצחים לאחר יישום בחירת תכונות, במיוחד כאשר שיטות מבוססות ANOVA היו חלק מתהליך הבחירה. בהגדרה הטובה ביותר, יער אקראי הגיע לכ-92% דיוק, 93% recall ו-AUC של 0.92 — עליונות ברורה על המתחרים.
מתי שילוב מודלים עוזר — ומתי לא
המחברים גם חקרו "bagging" — דרך ליצור גרסאות מעט שונות של מודל ואז לשלב את ההצבעות שלהן. טריק אנסמבל זה משמש לעתים קרובות כדי להקטין חוסר יציבות במודלים כמו עצי החלטה. במחקר זה, bagging הביא שיפורים קטנים למספר מודלים בעלי שונות גבוהה אך לא שיפר באופן דרמטי את יכולתם להבחין בין מחלת לב למקרים בריאים, במיוחד כאשר הוא שומש ללא בחירת התכונות הקפדנית שתוארה קודם. למעשה, הסתמכות על bagging בלבד לעתים השאירה מקרים חיוביים חשובים ללא גילוי, דבר שלא יהיה מקובל בסביבה רפואית.
מה זה אומר עבור חולים ורופאים
לציבור הרחב, המסר המרכזי הוא שדרך ההכנה והעיצוב של הנתונים יכולה להיות חשובה יותר מאשר כמה המודל המנבא מורכב. פשוט להפעיל אלגוריתם מסובך על רשומות בריאות לא מאוזנות ורועשות אינו מספיק. עבודה זו מראה שאיזון הנתונים ובחירה קפדנית של קבוצת גורמי סיכון ממוקדת — במיוחד אלה שמודגשים על ידי שיטות מבוססות ANOVA — מאפשרים למודלים יחסית פשוטים כמו יערות אקראיים ועצי החלטה לספק תחזיות מחלת לב מהימנות הרבה יותר. בעוד שהתוצאות הללו עדיין מצריכות אימות באוכלוסיות נוספות ובמרפאות אמיתיות, הן מצביעות על נוסחאות מעשיות לבניית כלי אזהרה מוקדמים שעשויים בעתיד לסייע לרופאים לזהות מטופלים בסיכון מוקדם יותר ולמקד מאמצי מניעה בצורה יעילה יותר.
ציטוט: Ara, J., Bhuiyan, H., Roza, I.I. et al. Importance of balanced datasets with feature selection and ensemble methods on heart disease classification using distinctive machine learning techniques: a comparative analysis. Sci Rep 16, 11706 (2026). https://doi.org/10.1038/s41598-026-47691-4
מילות מפתח: חיזוי מחלות לב, למידת מכונה, בחירת תכונות, איזון נתוני בריאות, מודלים של יער אקראי