Clear Sky Science · he

פרדיגמת תשומת לב גרפית דו-שכבתית עם אינטגרציית אסטרטגיה דיפרנציאלית ללמידת חיזוק רב-סוכנית הטרוגנית

· חזרה לאינדקס

למה הרבה בינה מלאכותית צריכות ללמוד לשתף פעולה

מצוות רובוטים ורכבים אוטונומיים ועד להקות רחפנים ושחקנים וירטואליים במשחקי אסטרטגיה — מערכות מודרניות רבות נשענות על מספר גדול של סוכנים מלאכותיים שעובדים יחד. אך לגרום לחברי הצוות הדיגיטלי הללו לתאם ביניהם קשה יותר ממה שזה נשמע, במיוחד כאשר לכל אחד יכולות שונות ורק מבט חלקי על המתרחש. מאמר זה מציע דרך חדשה לארגן צוותים כאלה כך שיוכלו לשתף בדיוק את המידע הדרוש, לקבל החלטות קבוצתיות טובות יותר ולהתמקד בבעיות גדולות ומגוונות הרבה יותר מאשר בעבר.

Figure 1
Figure 1.

קבוצות, מדריכים ועבודת צוות יומיומית

המחברים מתחילים מרעיון פשוט שמשקף כיצד אנשים ובעלי חיים משתפים פעולה: לחלק את הצוות לתפקידים ולקבוצות. בפרויקט משרדי, חברים משיווק, הנדסה וכספים מביאים כל אחד את המיומנויות שלו, ומנהל בכל קבוצה מתאם החלטות מקומיות תוך דיאלוג עם מנהלים אחרים. בהשראה זו שיטה מוצעת, הנקראת פרדיגמת תשומת לב גרפית דו-שכבתית (Bi-GAP), מקבצת סוכנים מלאכותיים לפי סוג. בתוך כל קבוצה, מספר סוכני "חבר" פועלים בפועל בסביבה, בעוד שסוכן וירטואלי של "מדריך" אוסף תצפית רחבה יותר ומציע כיוון אסטרטגי מבלי לבצע פעולות בעצמו.

שיחות חכמות בתוך ולקראת חוצה קבוצות

החידוש המרכזי של Bi-GAP טמון באופן בו הסוכנים הללו מתקשרים. במקום לאפשר לכל סוכן לדבר עם כל אחר — מה שהופך מהר מאוד למעמיס ככל שגודל הצוות גדל — השיטה משתמשת במנגנון תשומת לב דו-שכבתי, המיושם על גראף. בשכבה הראשונה, סוכני החבר מאותו סוג משתפים מידע בררנית, ומתמקדים בחברי הצוות שרלוונטיים ביותר למצבם הנוכחי. סוכן המדריך של אותה קבוצה מקשיב לכל חבריו, שוקל את הקלט שלהם ומייצר סיכום מושכל. בשכבה השנייה, רק סוכני המדריך בין קבוצות שונות מתקשרים זה עם זה, גם כן באמצעות תשומת לב הממוקדת בשותפים החשובים ביותר. מבנה שני-השלבים הזה מפחית עומס הודעות, מסנן רעש והופך את המערכת העיקרית לעמידה יותר בפני מידע חסר או מטעה.

Figure 2
Figure 2.

שילוב עצות תב"ע עם אינסטינקטים מקומיים

תיאום טוב צריך יותר מתקשורת; הוא צריך גם דרך לאחד נקודות מבט שונות להחלטה אחת. Bi-GAP מתמודד עם זאת על ידי מתן שתי מקורות הדרכה לכל סוכן פועל: ההסקה המקומית שלו והעצה המיוצרת על ידי סוכן המדריך שלו. במקום להתייחס לשתי האסטרטגיות הללו כשוות-ערך תמיד, השיטה משווה ביניהן. כאשר הן מסכימות בעיקרן, סוכן החבר נסמך יותר על מבטו המפורט, ומשמר תגובות עדינות. כאשר הן סוטות חזק, ניתן משקל גדול יותר לפרספקטיבה הרחבה של המדריך, ודוחפים את הסוכן לעבר מסלול פעולה המתאים יותר לתוכנית הכוללת של הקבוצה. מיזוג אדפטיבי זה מסייע לאזן בין תגובות מקומיות מהירות לבין תיאום יציב ברמת הצוות.

בדיקות בקרבות וירטואליים ומשחקי מרדף

כדי לבדוק האם Bi-GAP נותנת יתרון ממשי, החוקרים העריכו אותה בשני מבחנים תובעניים. הראשון הוא סימולטור קרב המבוסס על משחק האסטרטגיה בזמן אמת StarCraft II, שבו צוותים מעורבים של יחידות חייבים לתאם תנועה ולהתקפה נגד יריב פנימי חזק. השני הוא סביבה של טורף־נטרף, שבה סוכנים מהירים ואיטיים עם יכולות שונות מרדפים או מתחמקים זה מזה בתנועה רציפה. בשני ההקשרים, ותחת ראייה מלאה וחלקית, השיטה החדשה הושוותה למספר טכניקות מובילות בלמידת חיזוק רב-סוכנית. Bi-GAP לא רק השיגה שיעורי ניצחון ותגמולים גבוהים יותר, אלא גם למדה התנהגויות יעילות מהר יותר ונשארה יציבה אף כאשר מספר הסוכנים ומגווןם עלו.

מה המשמעות לזה עבור עבודת צוות של בינה מלאכותית בעתיד

במונחים פשוטים, המחקר מראה שהענקת היררכיה קלה אך ממוסדת היטב לצוותים גדולים ומעורבים של סוכני AI יכולה להפוך אותם לשותפים טובים בהרבה. על ידי קיבוץ סוכנים דומים, אפשרות לסוכני מדריך לתאם בין קבוצות ושילוב ייעוץ גלובלי עם שיפוט מקומי, Bi-GAP מנהלת משימות מורכבות ביעילות גבוהה יותר משיטות קודמות שהיו או יותר מרוכזות מדי או מפוזרות מדי. ככל שמערכות רב-סוכניות הופכות שכיחות יותר ברובוטיקה, בקרה תנועתית, משחקים וירטואליים ויישומים בעולם האמיתי, סכמות תקשורת והחלטה כאלה עשויות לסייע להבטיח שההמונים הדיגיטליים הגדלים יתנהגו פחות כתזזית מבולבלת ויותר כצוות מאומן היטב.

ציטוט: Li, Y., Zhang, Z. & Wang, J. Bi-level graph attention paradigm with differential strategy integration for heterogeneous multi-agent reinforcement learning. Sci Rep 16, 12156 (2026). https://doi.org/10.1038/s41598-026-41722-w

מילות מפתח: למידת חיזוק רב-סוכנית, סוכנים הטרוגניים, תשומת לב גרפית, תיאום, בקרה היררכית