Clear Sky Science · he

רשתות מתחרות גנרטיביות ו-XGBoost מותאם-היפרפרמטרים לחיזוי משופר של מחלות לב

2026-02-27 · חזרה לאינדקס

מדוע אזהרות מוקדמות ללב חשובות

מחלות לב נשארות ההורג המוביל בעולם, ורוב הנזק שלהן נבנה בדממה במשך שנים. רופאים כבר אוספים כמויות עצומות של מידע בריאותי — מגיל ולחץ דם ועד דפוסי שינה ופעילות גופנית — אך הפיכת הנתונים המבולגנים והלא מושלמים האלה לאזהרות מוקדמות אמינות קשה. מאמר זה מציג גישה מחשובית חדשה, בשם GAN-XO, שנועדה לסנן סקרים בריאותיים גדולים ולזהות במדויק מי בסיכון גבוה למחלות לב, תוך הפיכת ההחלטות לברורות ואמינות יותר עבור רופאים.

הפיכת נתוני בריאות מבולגנים לשימושיים

החוקרים התרכזו בשני מאגרי נתונים עיקריים: סקר עצום בארה"ב עם יותר מ-300,000 מבוגרים, ומחקר הלב המתגמתי של פרמינגהם שמתנהל שנים רבות. אוספים אלה מערבבים פרטים פשוטים כמו גיל, מין ועישון עם מדדים קליניים כגון מדד מסת גוף, לחץ דם, סוכר בדם ודיווחים עצמיים על בריאות פיזית ונפשית. אתגר מרכזי הוא שרק אחוז קטן מהאנשים במאגרי נתונים כאלה באמת סובלים ממחלות לב. מודלים מחשוביים סטנדרטיים נוטים ללמוד את התבנית "הקלה" — שרוב האנשים בריאים — ומזניחים את הקבוצה הקטנה אך המכרעת של החולים. בנוסף לכך, סקרים ותיקים רפואיים מכילים שגיאות, מדידות קיצוניות וחסרים שיכולים לבלבל גם את האלגוריתמים הטובים ביותר.

להדריך מכונה לדמיין מטופלים מציאותיים

כדי להתמודד עם בעיית חוסר האיזון, הצוות פנה לסוג של בינה מלאכותית הידוע כרשת מתחרה גנרטיבית (GAN). במקום פשוט להעתיק או לערבב רשומות קיימות, GAN לומדת ליצור "מטופלים" סינתטיים חדשים ומציאותיים שדומים לאלה עם מחלות לב. העיצוב הספציפי, GAN מותנה, מקבל מידע לאיזו קבוצה עליו להידמות (חולה או לא חולה), כך שהוא יכול ליצור במתכוון דוגמאות אמינות יותר של בעלי סיכון גבוה. המחברים בדקו שהמטופלים הסינתטיים שומרים על קשרים חשובים — כגון הקשר בין גיל ולחץ דם או בין סוכרת ורמות סוכר — במקום להמציא שילובים בלתי אפשריים. שלב זה העשיר במידה רבה את הנתונים הזמינים למודל החיזוי מבלי לדרוש מאנשי מקצוע רפואיים לאסוף דגימות נוספות מהעולם האמיתי.

ניקוי נתונים לקוי לפני חיזוי

עם זאת, נתונים סינתטיים עלולים גם להכניס אי־סדרים, כגון משקלים גופניים ביולוגית בלתי אפשריים או פרופילי בריאות מנוגדים. לסקרים ומסמכי בית חולים אמיתיים יש בעיות דומות. לכן מסגרת GAN-XO מוסיפה שלב ניקוי נתונים מחמיר מהרגיל. באמצעות שני כלים סטטיסטיים סטנדרטיים — z-score וטווח בין רבעוני — היא מסמנת ומסירה ערכים הנמצאים רחוק מטווחים סבירים רפואית למדידות כמו מדד מסת הגוף, ימי בריאות לקויים בחודש, שעות שינה, לחץ דם ורמות גלוקוז. במהות הדבר, המחברים בדקו שתהליך זה לא מוחק באופן מועדף אנשים עם מחלות לב; היחס של חולים ובריאים שהוסרו נשאר כמעט זהה לזה שבנתונים המקוריים. התוצאה היא אוסף קטן יותר אך אמין בהרבה של רשומות שעליו מאמנים את המודל.

שילוב נתונים חכמים ומנבא חזק

לאחר שהנתונים איזנו ונוקו, המחברים השתמשו ב-XGBoost, שיטת למידת מכונה נפוצה שבונה אנשל של עצי החלטה, לביצוע החיזוי הסופי. במקום לכוונן ידנית את ההגדרות הרבות שלו, הם הסתמכו על Optuna, מערכת חיפוש אוטומטית שניסתה צירופים שונים של פרמטרי מודל ושמרה על אלה שמשפרים ביצועים. הם השוו כמה גרסאות: XGBoost פשוט, XGBoost עם שיטות איזון פשוטות יותר, וצינור מלא של GAN-XO עם וסביב הסרת חריגים. בסקר הגדול של ארה"ב, מערכת GAN-XO המלאה הגיעה לכ־96.6% דיוק ולציון F1 דומה בגובהו, תוך עליונות על שיטות שפורסמו קודם. לא פחות חשוב, הסרת החריגים הצרה את הפער בין תוצאות האימון והמבחן, והראתה שהמודל לומד תבניות אמיתיות ולא שינון רעש.

להפוך חיזויים "קופסה שחורה" לברת הבנה

מכיוון שצריך להסביר החלטות רפואיות, המחברים בדקו גם כיצד המודל הגיע למסקנותיו. הם השתמשו בשני כלים פופולריים לפרשנות, SHAP ו-LIME, כדי להראות אילו גורמים הדחיפו חיזויים לעבר "מחלות לב" או "ללא מחלות לב" עבור קבוצות מטופלים ומקרים בודדים. כאשר המודל אומן על נתונים שעדיין הכילו חריגים, ההסברים היו לא יציבים ולעתים נשענו על שילובים מוזרים של תכונות. לאחר הניקוי, החשיבות של גורמי סיכון מוכרים — כגון גיל, בריאות כללית, משקל גוף, עישון ושבץ או סוכרת קודמים — הפכה לברורה ועקבית יותר. זה נתן תחושה חזקה יותר שההגיון של המודל תואם את ההבנה הקלינית, ולא רק תכסיסים סטטיסטיים.

מה זה אומר למטופלים ולרופאים

במילים פשוטות, מחקר זה מראה שדיוק טוב יותר בחיזוי מחלות לב תלוי לא פחות בטיפול זהיר בנתונים מאשר באלגוריתמים מתוחכמים. על ידי לימוד מערכת AI "לדמיין" מטופלים מציאותיים נוספים בסיכון גבוה, סינון אגרסיבי של רשומות בלתי סבירות ולבסוף כוונון מנוע חיזוי חזק, מסגרת GAN-XO מספקת גם דיוק גבוה וגם תוצאות יותר פרשניות. עבור מטופלים, זה יכול להוביל לאזהרות מוקדמות ואמינות יותר המבוססות על מידע שגרתי; עבור קלינאים, זה מציע כלי שהבחירות שלו משקפות טוב יותר לוגיקה רפואית אמיתית. המחברים טוענים ששילוב זה של בקרת איכות נתונים, סינטזה חכמה וחיזוי שקוף מהווה מתווה מבטיח למערכות AI עתידיות בתחום הבריאות.

ציטוט: Begum, S.S., Swamy, A., Dhanka, S. et al. Generative adversarial networks and hyperparameter-optimized XGBoost for enhanced heart disease prediction. Sci Rep 16, 11326 (2026). https://doi.org/10.1038/s41598-026-40322-y

מילות מפתח: חיזוי מחלות לב, למידת מכונה רפואית, נתוני בריאות סינתטיים, איכות נתונים וחריגים, מודלינג XGBoost