Clear Sky Science · he

שיחזור ניסיון מסתגל עם אשכולות ושני מאגרים המתארגן בעצמו (SODACER) ללמידה מחוזקת בטוחה בבקרה אופטימלית

· חזרה לאינדקס

להדריך מכונות ללמוד בבטחה

כאשר מחשבים לומדים לשלוט במערכות בעולם האמיתי—כגון טיפולים רפואיים או רובוטים—חשוב שהם ישתפרו במהירות מבלי לסכן אנשים. מאמר זה מציג גישה חדשה שבה אלגוריתמים מתאמנים על ניסיונות עבר, כך שהם הופכים ליותר מהירים ובטוחים, ומדגים כיצד זה יכול לסייע בעיצוב אסטרטגיות טובות יותר להגבלת התפשטות ועלויות נגיף הפפילומה האנושי (HPV).

למה קשה לשלוט במערכות מורכבות

טכנולוגיות מודרניות כוללות לעיתים מערכות שמשתנות בהתמדה לאורך זמן, החל מהתפשטות מחלות באוכלוסייה ועד תנועה של רובוט. מהנדסים רוצים לנווט מערכות אלו למצבים בריאים או יעילים תוך שמירה על מגבלות קפדניות, כגון כללי בטיחות או מגבלות משאבים. שיטות בקרה מסורתיות עלולות להתקשות כאשר המערכת מורכבת מאוד, לא ודאית או משתנה לאורך זמן. למידה מחוזקת, שבה סוכן מלאכותי לומד בניסיון וטעייה, אטרקטיבית כאן—אך יש לתכנן אותה בזהירות כדי שתהליך הלמידה עצמו לא יסטה לאזורים לא בטוחים.

ללמוד מהזיכרון בלי לשכוח בטיחות

מרכיב מרכזי ברבים ממערכות הלמידה המצליחות הוא סוג של זיכרון שנקרא שיחזור ניסיון, שבו האלגוריתם מאחזר אינטראקציות קודמות ומשתמש בהן כדי לשפר החלטותיו. אסטרטגיות שיחזור בסיסיות בוחרות דוגמאות אקראיות מהזיכרון, מה שעלול להיות מבזבז ולא יציב כאשר העולם משתנה. המחברים מציעים מסגרת שיחזור חדשה בשם Self-Organizing Dual-Buffer Adaptive Clustering Experience Replay, או SODACER. במקום לשמור מאגר אחד גדול ולא מובחן, SODACER מחלק אותו למאגר מהיר לחוויות אחרונות ומאגר איטי שמארגן חוויות ישנות לאשכולות, ועל־ידי חיתוך אוטומטי של פריטים מיותרים חוסך מקום תוך שמירה על מגוון.

Figure 1. מערכת למידה בטוחה המשתמשת בזיכרונות כפולים ובמגן בטיחות כדי לשלוט בתהליכים מורכבים מבלי לחרוג מגבולות
Figure 1. מערכת למידה בטוחה המשתמשת בזיכרונות כפולים ובמגן בטיחות כדי לשלוט בתהליכים מורכבים מבלי לחרוג מגבולות

איך הזיכרון הדו־מאגרי לומד

ב־SODACER המאגר המהיר קולט את ההתנהגות העדכנית של המערכת והסוכן הלומד. דוגמאות טריות אלו נושאות מידע חשוב על המצב הנוכחי ומאפשרות התאמה מהירה של הסוכן, גם אם הן רועשות. עם הזמן, חוויות מסוימות עוברות למאגר האיטי, שבו מנגנון אשכולות המתארגן בעצמו מקבץ מצבים דומים. כאשר שני אשכולות חופפים בצורה חזקה הם מתמזגים, ואשכולות שמצטמצמים מדי או שאינן מוסיפות מידע מוסרות. כך המאגר האיטי נשאר קומפקטי אך עשיר, ומציע תמונה רחבה של התנהגות המערכת בתנאים שונים. אלגוריתם הלמידה שואב דוגמאות משני המאגרי, מאזכר גמישות לטווח הקצר עם יציבות לטווח הארוך ומפחית את המאבק הרגיל בין הטיה לשונות בלמידה סטטיסטית.

לשמור את הלמידה בתוך גבולות בטוחים

מעבר ללמידת אסטרטגיות בקרה איכותיות, המסגרת חייבת להבטיח שהמערכת לעולם לא תחרוג ממגבלות הבטיחות. כדי להשיג זאת, המחברים משלבים את SODACER עם שכבת בטיחות המבוססת על פונקציות מחסום בקרה (control barrier functions). בפשטות, מדיניות הלמידה המחוזקת מציעה פעולה מבקרת, ומסנן בטיחות בודק האם פעולה זו עלולה לדחוף את המערכת מחוץ לאזור בטוח מוגדר מראש. אם צריך, המסנן מתקנן את הפעולה בצורה המינימלית הדרושה כדי שכל תנאי הבטיחות יישמרו. תכנון זה מאפשר לסוכן הלומד להתמקד בשיפור הביצועים—כמו הורדת העומס המחלה או העלות—בעוד פונקציות המחסום אוכפות את הבטיחות בכל שלב.

בחינת השיטה בבקרת HPV

כדי להדגים את הגישה, החוקרים מיישמים את SODACER על מודל מפורט של העברת HPV הכולל גברים ונשים, חיסונים, בדיקות ומגבלות תקציב. המטרה היא להפחית זיהומים ועלויות נלוות לאורך זמן תוך עמידה במגבלות ריאליסטיות על שיעורי חיסון ובדיקה. הם משווים את שיטותיהם לשתי אסטרטגיות שיחזור נוספות: שיחזור אקראי פשוט ושיחזור מבוסס אשכול סטנדרטי. בחמישה תרחישי התערבות שונים ו־200 סימולציות חוזרות, SODACER בשילוב עם אופטימיזטור יעיל בשם Sophia מתכנס מהר יותר, משתמש בפחות דוגמאות ומוביל לעלות סופית נמוכה יותר. כמו כן נרשמה שונות נמוכה יותר בין הרצות, מה שמעיד על למידה אמינה יותר, ובזכות שכבת הבטיחות נשמר שיעור אפס של הפרות מגבלות בכל המקרים שנבדקו.

Figure 2. שתי קבוצות זיכרון מסננות אירועים קודמים כך שבקר מקבל דוגמאות מגוונות ונקיות להתאמת פעולות בטוחות לאורך זמן
Figure 2. שתי קבוצות זיכרון מסננות אירועים קודמים כך שבקר מקבל דוגמאות מגוונות ונקיות להתאמת פעולות בטוחות לאורך זמן

מה משמעות הדבר לבקרה בעולם האמיתי

בלשון פשוטה, עבודה זו מראה כיצד מתן זיכרון חכם לסוכן למידה ומגן בטיחות פעיל תמיד יכולים לייצר אסטרטגיות בקרה שהן גם יעילות וגם אמינות. במקום לבחון באופן עיוור, המערכת זוכרת באופן סלקטיבי את החוויות המידעיות ביותר ובודקת כל פעולה מוצעת מול גבולות בטיחות ברורים. למרות שמחקר המקרה מתמקד ב־HPV, הרעיונות שמאחורי SODACER ואינטגרציית הבטיחות הם כלליים, ומצביעים לכיוון של בקרה מבוססת למידה בטוחה ויעילה בתחומים כמו רובוטיקה, בריאות ותשתיות גדולות.

ציטוט: Khalili-Amirabadi, R., Jalaeian-Farimani, M. & Solaymani-Fard, O. Self-Organizing Dual-Buffer Adaptive Clustering Experience Replay (SODACER) for safe reinforcement learning in optimal control. Sci Rep 16, 14960 (2026). https://doi.org/10.1038/s41598-026-44517-1

מילות מפתח: למידה מחוזקת בטוחה, שיחזור ניסיון, זיכרון בעל שני מאגרים, בקרת HPV, בקרה אופטימלית