Clear Sky Science · he

התמודדות עם חוסר האיזון בנתונים במודלינג למידת מכונה של אירועי הפסקת חשמל נדירים והרסניים

· חזרה לאינדקס

מדוע תחזיות סופות מדויקות יותר חשובות לכם

כשסערה חזקה חותכת את החשמל, אנו חווים זאת באופן מאוד אישי: אין אור, אין חימום, מזון מתקלקל ותקשורת מנותקת. חברות התשתית מנסות לחזות הפסקות אלה מראש כדי להעמיד צוותי תיקון ולהגן על אנשים. אבל הסופות החמורות ביותר הן נדירות, ולכן יש להן כמות בלתי צפויה של נתונים. מאמר זה מראה כיצד סוג חדש של בינה מלאכותית יכול "להמציא" סופות נדירות ברות-חיקוי, למלא חוסרים ברשומות ולהפוך את תחזיות ההפסקות למדודות יותר כשהדבר חשוב ביותר.

Figure 1
Figure 1.

האתגר של למידה מאסונות נדירים

מרבית הפסקות החשמל נגרמות על ידי מזג אוויר, בפרט הוריקנים, סופות צפון-מזרח (Nor’easters), סופות שלג וקרח, וסופות רעמים חזקות. אירועים אלה מתעצמים ככל שהאקלים מתחמם, מה שמפעיל עומס נוסף על רשתות חשמל מזדקנות. ובכל זאת, הסופות המשחיתות ביותר הן, בהגדרה, לא שכיחות. כלים סטטיסטיים מסורתיים ומודלים של למידת מכונה נוטים ללמוד היטב מהסופות הרבות והמתונות, וקורסים מול המקרים האקסטרים והנדירים. חוסר איזון זה בנתונים מוביל להערכות חסר של הנזק דווקא כאשר לחברות התשתית יש הכי הרבה צורך בהנחיה אמינה.

לימוד מחשבים ליצור סופות חדשות

כדי להתגבר על חוסר האיזון, המחברים בונים מערכת שיוצרת סופות סינתטיות—כלומר, אירועים שנוצרו במחשב שנראים ומתנהגים כמו סופות אמיתיות אך אינם העתק של אירוע עבר כלשהו. הם מתמקדים בקונטיקט, ומייצגים כל סופה כרשת של 815 תאים עם 19 סוגי מידע בכל תא, כולל רוח, גשם, לחץ, טורבלנציה, צמחיה ופריסת קווי חשמל. ראשית, הם מקבצים 294 סופות היסטוריות ל-12 אשכולות לפי מספר ומיקום "נקודות הבעיה"—מיקומי נזק שעל הצוותים לתקן. הסופות הנדירות והמשפיעות חזק מסתיימות בארבעה אשכולות קטנים שזקוקים לתגבור.

כיצד המודל החדש של הבינה בונה קיצוניות ריאליסטיות

גרעין המסגרת משלב שתי כלים מודרניים בבינה מלאכותית. אוטואנצודר ואריאציוני מדחס כל מפה רב-שכבתית של סופה לייצוג "לטנטי" במימד נמוך יותר שמעדכן עדיין דפוסים חשובים, כמו רוחות חזקות יותר בקרבת החוף. על המרחב המדחוס הזה, מודל דיפוזיה לומד להתחיל מרעש אקראי ולשכלל אותו בהדרגה לסופה ריאליסטית, מותנית על פי אשכול חומרת ההפסקות המבוקש. המערכת מסננת אחר כך את הסופות המיוצרות באמצעות סט מדדים שמשווים את הסטטיסטיקה שלהן לאירועים אמיתיים—בוחנת לא רק תכונות בודדות כמו מהירות הרוח אלא גם כיצד תכונות נעות יחד, כפי שנלכד על ידי דפוסי מתאם. נשמרות רק סופות סינתטיות התואמות בקפדנות להתנהגות הפיזיקלית והסטטיסטית של סופות אמיתיות באשכול נתון.

Figure 2
Figure 2.

בדיקת הסופות הסינתטיות בפועל

המחברים שואלים אז את השאלה המכרעת: האם סופות סינתטיות אלה אכן מסייעות לחזות הפסקות חשמל? הם מאמנים מודל חיזוי הפסקות קיים פעמיים—ראשית רק על סופות אמיתיות, ולאחר מכן על אותם נתונים מועשרים באירועים סינתטיים שעברו סינון קפדני עבור אשכולות נדירים ומשפיעים. הם מעריכים ביצועים באמצעות מבחן קשוח של השאר-סופה-אחת-מחוץ (leave-one-storm-out), שמדמה חיזוי אירועים חדשים שלא נראו קודם. בעזרת העשרת סינתטיקה, שגיאת המבנה של המודל יורדת באופן חד וההתאמה הכוללת משתפרת. עבור הסופות הנדירות וההרסניות ביותר, שורש ממוצע הריבועים המרכזי יורד בכ-45%, ומדדי כישרון מסכמים כמו יעילות נאש–סאטקליף עולים מרמות פחות טובות מבסיסיות לביצועים שימושיים וברורים. השוואה להגדלה "אקראית", שמוסיפה סופות סינתטיות ללא סינון איכותי, מראה שיפורים קטנים בהרבה ואף שליליים, ומדגישה את חשיבות הסינון הקפדני.

מה משמעות הדבר לסופות עתידיות

במלים פשוטות, מחקר זה מראה שלהרשות הבינה המלאכותית להמציא סופות קיצוניות העקביות מבחינה פיזיקלית—ולהיות בררניים לגבי אילו מהסופות המומצאות מהימנים—יכולה להפוך תחזיות הפסקות למהימנות יותר דווקא לאותם אירועים שגורמים לנזק הגדול ביותר. על ידי העשרת נתונים דלים על מזג אוויר נדיר והרסני, הגישה עוזרת לחברות התשתית לחזות טוב יותר כמה מוקדי נזק יצוצו והיכן. אף על פי שהודגם למדינה אחת וסוג סיכון אחד, אותה אסטרטגיה ניתנת להרחבה לשריפות, שיטפונות ואיומים טבעיים אחרים, ומציעה דרך חדשה לחזק תכנון תשתיות בעולם של קיצוניות אקלימית גוברת.

ציטוט: Azizi, M., Zhang, X., Yasenpoor, T. et al. Addressing the data imbalance issue in machine learning modeling of rare and disruptive outage events. Sci Rep 16, 8876 (2026). https://doi.org/10.1038/s41598-026-41838-z

מילות מפתח: נתוני סופות סינתטיים, חיזוי הפסקות חשמל, מודלים של דיפוזיה, מזג אוויר קיצוני, חוסר איזון בנתונים