Clear Sky Science · he
כששיתוף פעולה נכשל: השפעה עוינת מונעת שכנוע בדיון מרובה-סוכנים של מודלים שפתיים גדולים
מדוע דיונים חכמים של בינה מלאכותית עדיין עלולים להשתבש
מערכות בינה מלאכותית המורכבות ממספר צ'אטבוטים מדברים מבטיחות חשיבה עמוקה יותר: כל בוט ממליץ על ביקורת לעמיתיו, והקבוצה אמורה להגיע לתשובות טובות יותר מאשר כל מודל בודד. המאמר הזה מראה כי להבטחה זו יש תפנית משמעותית. אם אפילו אחד מהצ'אטבוטים מעוצב להיות חד ומטעה, הוא יכול בהדרגה לנתב את כל הקבוצה למסקנה שגויה — אפילו כאשר האחרים משתדלים להיות מדויקים.

כיצד מכונות משוחחות מנסות לחשוב ביחד
מודלים שפתיים גדולים מודרניים כבר לא משמשים רק כמנבאים בודדים ובמבודד. מהנדסים מחברים כעת כמה מהם בסביבות "מרובת-סוכנים" שבהן כל מודל פועל כסוכן עצמאי עם תפקיד בשיחה. נוכח שאלה — על רפואה, משפטים, ידע כללי או מתמטיקה — כל הסוכנים נותנים תשובה ראשונית, ואז מנהלים דיון במספר סבבים, משקפים את עמדותיהם וכיוון תגובותיהם ביחס לטיעונים של האחרים לפני שהקבוצה מבצעת הצבעה סופית ברוב. מחקרים קודמים הצביעו על כך שסוג זה של דיון מתואם משפר דיוק ועמידות של מערכות ה-AI, בדומה לכך שפאנל מומחים יכול להצטיין על פני כל מומחה יחיד.
כאשר משתתף חלקלק מצטרף לקבוצה
המחברים שואלים שאלה פשוטה אך מטרידה: מה אם אחד הסוכנים אינו מהימן? במקום לתקוף את המערכת על ידי שינוי נתונים או קוד, הם מעצבים תוקף שיחתי טהור — סוכן משכנע שמטרתו היחידה היא לדחוף תשובה מסוימת ושגויה. לסוכן האדברסרי יש גישה להיסטוריית הדיון והוא כותב טיעונים בטוחים וקוהרנטיים שמטרתם להטות את עמיתיו. בארבע מערכות מיון תובעניות — שכוללות שאלות עובדתייות, שאלות מטמיעות שמיועדות להטעות, בעיות ממבחני רפואה וחשיבה משפטית — החוקרים מגלים שסוכן עוין יחיד מסוגל להוריד את דיוק הקבוצה ב־10–40 אחוזים ולהגביר את ההסכמה עם התשובה השגויה ביותר מ־30 אחוזים.
כיצד הסוכן המשכנע העוין פועל
במקום לחזור פשוט על טענה שגויה, הסוכן העוין נוקט באסטרטגיה מובנית ורב-שלבית. ראשית, הוא מייצר כמה קווי היגיון עצמאיים שמסתיימים כולם באותה תשובה שגויה, תוך שימוש בסגנונות שונים כגון סיפורי סיבה, הגדרות או חישובים גסים. לאחר מכן הוא סורק את הודעות שאר הסוכנים כדי לחלץ את נקודות המפתח שלהם ובונה התנצחויות מותאמות שמטילות ספק בלוגיקה, בראיות או בביטחון שלהם. בהמשך הוא מאחד את הטיעונים התומכים שלו ואת ההתקפות נגד לתוך הודעה מלוטשת אחת שמרגישה כמו חוות דעת מומחה מעוגלת. לבסוף, הוא "מופקד" את התוצאה על ידי נימה בטוחה והוספת פרטים טבועי-תחום, מה שהופך את ההודעה לסמכותית יותר. ראוי לציין שכל זה מתרחש בזמן האינפרנס — דרך פרומפטינג ושימוש חכם בהקשר — ללא אימון מחודש או שינוי של המודל הבסיסי.

מדוע כלים נוספים עלולים להחמיר את המצב
טכניקות שבדרך כלל עוזרות למודלים שפתיים לחשוב טוב יותר עלולות בלי כוונה להגביר את סוג ההתקפה הזה. המחברים מאפשרים לסוכן העוין להשתמש בהפקה משופרת-באחזור, שליפת קטעים קצרים מאוספי טקסט מקוונים, ובסכמת "הטוב ביותר מ־N" שבוחרת מתוך דגימות רבות את הטיעון המשכנע ביותר. שיטות אלה נועדו להעלות את הביסוס העובדתי ואת איכות ההיסק, אך כאן הן עושות שהטיעון השקרי נשמע עשיר ואמין יותר — גם כאשר החומר שנשלף קשור באופן רופף או צוטט סלקטיבית. הניסויים גם מראים שהוספת סוכנים נוספים או סבבים רבים יותר אינה פותרת את הבעיה; למעשה, ככל שהסבבים מתקדמים, הקבוצה לעיתים קרובות נוטה יותר לעמדת התוקף.
מה המשמעות של זה למערכות בינה מלאכותית בעולם האמיתי
הממצאים חושפים חולשה מבנית בשיתוף פעולה בסגנון דיון: מערכות התלויות בדיון ובהסכמה ניתנות לעיוות על ידי משתתף חלקלק יחיד. מודלים חזקים יותר כמו GPT-4o מתנגדים לכך במידה מסוימת אך אינם חסינים, בעוד שמודלים קטנים יותר או פחות מיושרים נוטים להתנתק בקלות. הגנות פשוטות כגון אזהרה לסוכנים להתעלם מניסיונות שכנוע מפחיתות את הנזק רק במעט. עבור יישומים ברפואה, משפט או תמיכה בקבלת החלטות, שבהם סביבות מרובות-סוכנים הופכות נפוצות יותר, משמעות הדבר היא שמעצבים לא יכולים להניח ש"יותר סוכנים" או "יותר דיון" יובילו אוטומטית לתוצאות בטוחות או אמיתיות יותר. במקום זאת, המאמר טוען כי צריך פרוטוקולים חדשים שמנטרים כיצד הדעות משתנות במהלך הזמן, מגבילים את השפעתו של כל סוכן ובודקים טענות מפתח מול מקורות מהימנים לפני שמאפשרים לקבוצה להכריע על תשובה.
ציטוט: Kraidia, I., Qaddara, I., Almutairi, A. et al. When collaboration fails: persuasion driven adversarial influence in multi agent large language model debate. Sci Rep 16, 11640 (2026). https://doi.org/10.1038/s41598-026-42705-7
מילות מפתח: בינה מלאכותית מרובת סוכנים, שכנוע עוין, דיון מודלים שפתיים גדולים, בטיחות בינה מלאכותית, הפקה משופרת-באחזור