Clear Sky Science · he

הערכת הסתברות U‑smile מספקת בדיקה חסרת סף ועמידה של דגמי סיווג בינארי למערכי נתונים מאוזנים ולא מאוזנים

· חזרה לאינדקס

מדוע בדיקות מודל טובות יותר חשובות להחלטות יום‑יומיות

מבחנים רפואיים וציוני אשראי — מחשבים עונים לעתים קרובות על שאלות כן‑או‑לא: האם מטופל זה סובל ממחלת לב? האם העסקה הזו צפויה להיות הונאה? עם זאת, הכלים שבהם אנו משתמשים כדי לשפוט עד כמה מודלים אלה טובים עלולים להטעות, במיוחד כאשר מה שחיפושנו אחריו נדיר. מאמר זה מציג דרך חדשה לבדוק מודלים כאלה, שמסתכלת בנפרד על היכולת לזהות את המקרים הנדירים החשובים ועל היכולת להימנע מאלארמים שווא, ומספקת תמונה ברורה יותר בהחלטות בעלות סיכון גבוה.

Figure 1
Figure 1.

מגבלות כרטיסי הדירוג החד‑מספריים של היום

מרבית "כרטיסי הדירוג" של מודלים כיום, כמו העקומת ROC הפופולרית והמדד המסכם שלה — שטח מתחת לעקומה, מצמצמים ביצועים למספר אחד. מספר זה מערבב יחד הצלחות אצל אנשים שיש להם באמת את המצב (אירועים) ואלה שאין להם (לא‑אירועים). ברבים מהבעיות המעשיות, כמו אבחון רפואי או גילוי הונאות, הקבוצה הנדירה היא דווקא זו שמעניינת אותנו ביותר, והטעויות בה יקרות יותר מטעויות בקבוצה הנפוצה. תחת חוסר איזון חמור — כשיש הרבה יותר לא‑אירועים מאשר אירועים — מדדים מסורתיים יכולים להצביע שמודל נראה טוב מאוד למרות שהוא גרוע לגבי המקרים הנדירים והקריטיים.

מבט חדש בצורת "חיוך" על כוחו של המודל

המחברים מרחיבים את רעיון הוויזואליזציה הקודמת שלהם בצורת U למתודה מלאה שנקראת U‑smile Likelihood Evaluation. בלב השיטה עומד מדד חדש, יחס הסבירות היחסי, שמשווה עד כמה הנתונים סבירים תחת מודל נתון לעומת מודל ייחוס פשוט ללא מידע שימושי. מדד זה טבעי בלא סף: הוא משתמש בהסתברויות החזויות הגולמיות במקום לכפות בחירת נקודת חתך. מהותי הוא שהוא מפורק לחלקים נפרדים עבור קבוצת האירועים וקבוצת הלא‑אירועים. בעקומת U, שיפורים בכל קבוצה מוצגים על ידי נקודות צבעוניות: "חיוך" עמוק וסימטרי אומר שהמודל מסייע לשתי הקבוצות; צורה לא מאוזנת מגלה שכאשר רק קבוצה אחת נהנית מהשיפור. גודל הנקודה משקף כמה פרטים מושפעים, וסגנון הקו מציין האם השיפור מהימן סטטיסטית.

כיצד השיטה מתנהגת על נתונים מאוזנים ומעוקלים

כדי לבדוק את הגישה שלהם, החוקרים יצרו מספר מערכי נתונים סינתטיים המדמים אתגרים מעולם‑האמיתי: אותות חלשים וחזקים, וכן מצבים בעלי חוסר איזון חמור שבהם רק אחד מעשרה מקרים הוא אירוע. הם גם ניתחו סט נתונים ידוע של מחלת לב. בכל תצורה הם בנו מודלים שלב אחר שלב, הוספת תחזית אחת בכל פעם באמצעות כללים מבוססי ROC מסורתיים או על‑פי קריטריוני U‑smile החדשים. במצבים מאוזנים, כל השיטות בחרו תחזיות דומות והשיגו ביצועים כמעט זהים, מה שמרמז כי U‑smile אינו נחות מהפרקטיקות הקיימות כאשר הנתונים מתנהגים היטב. ההבדלים האמיתיים הופיעו תחת חוסר איזון: שם, בחירה מונחית U‑smile שיפרה את זיהוי המיעוט בעד 16% בשטח דיוק‑זכיה (precision‑recall area) ו‑21% במדד F1 בהשוואה לבחירה מונחית ROC, תוך שמירה על ביצועים חזקים עבור קבוצת הרוב.

Figure 2
Figure 2.

לראות מה כל תחזית תורמת באמת

מכיוון שניתן לצייר גרסאות U‑smile לאחר כל צעד מודליזציה, הן משמשות גם כיומן חזותי של אופן גדילתו של המודל. בדוגמאות הלא‑מאוזנות, תחזיות מוקדמות שיפרו בעיקר את ההכרה במקרים של אירוע, ויצרו "חיוך" מוטה. תחזיות מאוחרות החזירו איזון, העמיקו וסימטרו את העקומה. גרסאות נפרדות של השיטה יכולות להעדיף במכוון או את האירועים או את הלא‑אירועים, מה שמאפשר למשתמשים להתאים מודלים למטרות ספציפיות — למשל, למקסם גילוי של מחלה נדירה בעוד שגרסה אחרת מדגישה מניעת אזעקות מיותרות. המחברים יישמו גם את השיטה על מודלים של יער אקראי (random forest), הפועלים באופן שונה מאוד מרגרסיה לוגיסטית קלאסית, ומצאו כי דפוסי ה‑U עדיין מספקים תובנות ברורות, מה שמראה שהגישה עובדת על פני סוגים רבים של אלגוריתמים.

מה משמעות הדבר להחלטות סיכונים בעולם‑האמיתי

במילים פשוטות, המחקר מציע דרך ברורה וישרה יותר לשאול: "מי המודל הזה באמת מסייע לו?" במקום ציון בודד מחמיא, U‑smile Likelihood Evaluation מראה, במבט חטוף, האם מודל משפר באמת את גילוי האירועים הנדירים אך החשובים, כמה הוא מסייע למקרים הנפוצים ואילו תחזיות נוספות מניעות את השינויים האלה. בתחומים כמו רפואה, ספורט, פיננסים ובטיחות תעשייתית — שבהם החמצת אירוע נדיר עלולה להיות חמורה הרבה יותר מהעלאת אזעקה שווא מדי פעם — המבט הזו לקבוצה‑לפי‑קבוצה יכול להנחות עיצוב מודלים טוב יותר ותקשורת שקופה יותר לגבי סיכונים.

ציטוט: Więckowska, B., Guzik, P. Usmile likelihood evaluation provides robust threshold free assessment of binary classification models for balanced and imbalanced datasets. Sci Rep 16, 10000 (2026). https://doi.org/10.1038/s41598-026-40545-z

מילות מפתח: סיווג בינארי, נתונים לא מאוזנים, הערכת מודלים, מכפלת סבירות יחסית, למידת מכונה שניתן להסביר