Clear Sky Science · he

האצה של תהליך הלמידה של אלגוריתמי חיזוק עמוקים בשכתוב רשתות הפצה באמצעות שיטת השמעה חדשנית

· חזרה לאינדקס

רשתות חשמל חכמות לחיי היומיום

החשמל כל כך אמין במקומות רבים שאנו כמעט ואיננו חושבים כיצד הוא מגיע לבתינו ולמקומות העבודה שלנו. אך מאחורי הקלעים חברות החשמל מנהלות כל הזמן איזו קווים יהיו פעילים כדי לספק אנרגיה עם בזבוז מינימלי. מאמר זה בוחן דרך חדשה לאפשר למערכת בינה מלאכותית ללמוד בעצמה כיצד לשכתב רשתות הפצה מקומיות כדי לצמצם הפסדים, לשמור על מתח תקין ולהגיב במהירות לשינויים בתנאים כגון הספק סולארי ותנודות בביקוש היומי.

Figure 1
Figure 1.

למה קווי חשמל זקוקים לתכנית טובה יותר

ברשת הפצה טיפוסית הזרם זורם מתת-תחנה דרך רשת של קווים ומתגים לאלפי צרכנים. חלק מהמתגים בדרך כלל סגורים, אחרים נשמרים פתוחים כך שסך כל דפוס הקווים נראה כעץ במקום כמשבצת, מה שעוזר להגן על ציוד ומפשט את התפעול. עם הזמן מהנדסים פיתחו שיטות מתמטיות והשראתיות-טבעיות רבות להכרעה אילו מתגים צריכים להיות פתוחים או סגורים כדי למזער איבוד אנרגיה ולשמור על מתח בטווחים בטוחים. שיטות אלה עובדות, אך לעיתים מסתמכות על מודלים מפורטים, יכולות לדרוש חישוב נרחב, וצריך להפעילן מחדש בכל פעם שהתנאים משתנים.

לאפשר לסוכן בינה מלאכותית ללמוד בניסוי וטעייה

המחברים מתייחסים לרשת כאל מגרש למידה עבור סוכן למידת חיזוק עמוק, סוג של בינה מלאכותית המשתפרת דרך ניסוי וטעייה. בכל שלב הסוכן בודק את מצב הרשת הנוכחי: המתח בכל הצמתים (הבסיסים) ומצב כל קו. לאחר מכן הוא בוחר איזה קו לפתוח בכל לולאה של הרשת ומקבל ניקוד המבוסס על כמות האבדן הכוללת וכמה שהמתח חורג מהערך האידיאלי. במשך אפיזודות סימולציה רבות, הסוכן בהדרגה לומד אילו שילובים של מצבי מתגים נוטים להניב הפסדים נמוכים ומתח יציב, מבלי שיסופקו לו משוואות הזרימה הפנימיות.

פירוק חידה גדולה ללולאות

מכשול מרכזי הוא מספר האפשרויות העצום של הגדרות מתגים ברשת הפצה אמיתית; מספר הפעולות מתפוצץ ככל שמוסיפים קווים. כדי להתמודד עם זה המאמר מציג אסטרטגיה מבוססת לולאות. במקום שיש מקבל החלטות ענק אחד שבוחר מבין כל הקווים בבת אחת, הרשת מפורקת ללולאות. רשת למידה ייעודית מוקצת לכל לולאה והיא אחראית רק להחליט איזה קו לפתוח בתוך אותה לולאה. המחברים משנים את חוקי הלמידה הרגילים כך שכאשר לולאה אחת בוחרת קו שמשותף עם לולאה אחרת, הלולאות המאוחרות מטפלות בקו הזה כאילו אינו זמין. תאום זה מאפשר למערכת לכבד את המגבלות הפיזיקליות של הרשת תוך שמירה על מרחב החלטה סביר לכל לומד.

Figure 2
Figure 2.

לזכור רק את החוויות היקרות ביותר

אפילו עם חלוקה ללולאות, הלמידה עלולה להיות איטית אם כל חוויה עברית מתנהלת כשווה. לכן המחברים מפתחים מנגנון חדש של "השמעה חווייתית מבוססת הפסד". במהלך האימון הסוכן מאחסן אפיזודות שלמות—רצפים מלאים של פעולות ומצבי רשת נלווים—בזיכרון. לאחר כל אפיזודה משווים את אובדן הכוח הסופי עם החוויות הטובות ביותר שנצפו עד כה. רק האפיזודות שנמצאות באחוזונים העליונים מועתקות למטמון מיוחד. כאשר הסוכן מאמן את הרשתות הנוירונליות שלו, הוא שואב חלק מהדוגמאות מתוך קבוצת האליטה וחלק מתוך החוויות הרגילות, ובכך משיג איזון בין מיקוד בתבניות מבטיחות לבין הימנעות מהטיה. השמעה מכוונת זו מסייעת לסוכן להתכנס מהר יותר לאסטרטגיות באיכות גבוהה.

להוכיח את הרעיון על רשתות בדיקה ריאליסטיות

החוקרים בודקים את גישתם על שלוש מערכות ביקורת מוכרות עם 33, 69 ו-119 בסיסים, כולל גרסאות עם לוחות סולאריים גג וביקוש המשתנה בזמן לאורך יום מלא. הם משווים כמה וריאנטים של למידה עמוקה—עם ובלי מאגר השמעה החדש—נגד שיטות בינה מלאכותית ומתמטיות קודמות. בכל הרשתות סוכני הלולאות המשתמשים בהשמעה ממוקדת-הפסד צמצמו באופן עקבי את ההפסדים יותר מהגרסאות הפשוטות שלהם והתאימו או עלו על הטכניקות הטובות הקיימות. הם גם עושים זאת עם זמני חישוב תחרותיים או טובים יותר ברגע שהאימון הושלם, דבר קריטי לשכתוב בזמן אמת או בתדירות גבוהה.

מה המשמעות עבור רשתות עתידיות

במילים פשוטות, המחקר מראה שמערכת למידה מעוצבת היטב יכולה ללמד את עצמה כיצד לארגן מחדש את "הדרכים" של רשת החשמל כך שהחשמל יעבור ביעילות רבה יותר וישמור על טווחים בטוחים, גם כאשר הספק סולארי והביקוש משתנים במהלך היום. על ידי פירוק הבעיה ללולאות ואימון על החוויות המוצלחות ביותר בעבר, השיטה נמנעת מפישוטים גסים תוך שמירה על מעשיות הלמידה. למרות שהאימון עדיין לוקח זמן ברשתות גדולות מאוד, הגישה מצביעה לעבר מערכות הפצה עתידיות שבהן סוכנים חכמים מכווננים ברצף את מצבי המתגים ברקע, מצמצמים הפסדים, תומכים באנרגיות מתחדשות ועושים את החשמל שלנו יותר אמין וכלכלי באופן שקט.

ציטוט: Ghaemipour, A., Mashhadi, H.R. & Mostafavi, S.H. Accelerating the learning process of deep reinforcement learning algorithms in distribution network reconfiguration using an innovative replay method. Sci Rep 16, 12660 (2026). https://doi.org/10.1038/s41598-026-40508-4

מילות מפתח: הפצת חשמל, רשת חכמה, למידת חיזוק, אופטימיזציית רשת, שילוב סולארי