Clear Sky Science · he

אינטליגנציה קולקטיבית ומוגברת עוקפות אינטליגנציה מלאכותית במבחני זיהוי רגשות

2026-03-24 · חזרה לאינדקס

למה זה חשוב בחיי היומיום

מי טוב יותר בקריאת רגשות ממבט קצר בעיניים של מישהו: אנשים או מכונות? ככל שמערכות בינה מלאכותית נכנסות לבתי ספר, מרפאות ומקומות עבודה, כלים רבים מבטיחים לשפוט מצבי רוח ומצבים נפשיים לפי פנים. המחקר הזה מראה שלמרות שמודל עוצמתי יכול לנצח רוב אנשים בבדיקות מעבדה של רגשות, קבוצות של אנשים העובדים באופן עצמאי עדיין מובילות, והתוצאות הטובות ביותר מתקבלות כשהחלטות אדם ומכונה משולבות.

Figure 1. אנשים יחד עם בינה מלאכותית שופטי רגשות מהעיניים בדיוק רב יותר מאחד מהם לבד.

איך עובדות בדיקות קריאת הרגשות

החוקרים התמקדו בשתי משימות מעבדה נפוצות שמבקשות מאנשים להסיק רגשות ומחשבות מרקמות תמונות של אזור העיניים בלבד. בכל מבחן, הצופים רואים תמונה וחייבים לבחור איזו ממילות קצרות מתוך ארבע הכי מתאימה למצב הנפשי של האדם. במבחן אחד משתמשים בתמונות שחור‑לבן שנלקחו בעיקר מקבוצה אתנית אחת, בעוד שבגרסה החדשה יותר יש תמונות צבע מגוונות יותר של אנשים ומשתמשים בווקבילר פשוט יותר. עשורים של מחקר מקשרים ציונים במשימות הללו לכישורים חברתיים ולתוצאות קליניות, למרות שהן אינן שיקוף מושלם של חיי הרגש בעולם האמיתי.

איך מתמודד מודל בולט אל מול אנשים בודדים

הצוות בחן מודל שפה מולטימודלי חזק שנקרא GPT‑5 mini, שיכול לנתח תמונות וטקסט. הם הריצו את המודל 100 פעמים על כל פריט במבחן, ללא מתן דוגמאות אימון, כדי לתפוס את הביצוע הבסיסי שלו. בהשוואה לנתונים מ‑27,000 משתתפים אנושיים ומעלה, GPT‑5 mini ענה נכון בערך 83 אחוזים מהזמן בשני המבחנים, לעומת ממוצעי האנשים של 71 ו‑63 אחוזים. ניתוחים מפורטים על טווח היכולת האנושי הראו שהבינה המלאכותית עלתה על רוב האנשים בעלי הציונים הנמוכים והבינוניים. במבחן הישן, עם זאת, האנשים הטובים ביותר התאימו או עלו במעט על המודל, בעוד שבגרסה החדשה והמולטי‑גזעית המודל שמר על היתרון גם בקצה הגבוה.

למה יערות של אנשים מנצחים יערות של מכונות

לאחר מכן שאלו החוקרים מה קורה כאשר אוספים תשובות רבות יחד. הם סימולצו יערות על‑ידי דגימה חוזרת של קבוצות אנשים או של ריצות שונות של המודל, ואיפשרו לתשובה העיקרית לזכות — כלל פשוט שנקרא הצבעת פלורליות. יערות אנושיות שיפרו במידה ניכרת עם הגודל; כאשר שילבו תשובות של 100 אנשים, הדיוק במבחן אחד התקרב לשלמות. לעומת זאת, יערות של בינה מלאכותית זכו להטבה מועטה מהוספת ריצות נוספות. קריאות שונות של אותו מודל נטו לחזור על אותן שגיאות, ולכן הקבוצה לא יכלה לתקן את טעויותיה. למעשה, זה היה כמו לשאול את אותו מומחה את אותה שאלה פעמים רבות, במקום להיעזר בניסיון חיים מגוון.

אנשים ובינה מלאכותית יחד — התוצאה הטובה ביותר

הצעד האחרון היה לערבב קולות של אנשים ובינה מלאכותית. החוקרים בנו יערות היברידיות שבהן רוב החברים היו אנשים וחלק קטן יותר היו ריצות של המודל, כאשר כל צד תרם תשובות באופן עצמאי לפני שהן אוחדו. קבוצות אלה המוגברות ביצעו באופן עקבי טוב יותר משתי הקבוצות של אנשים בלבד או של מכונה בלבד. במבחן החדש והכוללני יותר, לא אנשים ולא המודל לבדם הגיעו מעבר לכ‑95 אחוז דיוק, אך הקבוצות המעורבות הגיעו לכ‑98 אחוז בקירוב, והן עשו זאת עם גדלי קבוצה קטנים יותר. התבנית הזאת מרמזת שבני אדם ומכונות נוטים לעשות סוגים שונים של טעויות, ולכן החוזקות שלהם משלימות זו את זו באופן טבעי.

Figure 2. השגיאות של בני אדם ושל המחשבים שונות, ולכן שילוב ניחושים שלהם לגבי רגשות מניב החלטה מדויקת יותר.

מה משמעות הדבר לשימוש בבינה מלאכותית לזיהוי רגשות

מסקנת המחקר היא שהשוואת בינה מלאכותית ל"אדם הממוצע" עלולה להטעות, כי היא מתעלמת מעוצמת השיפוט הקולקטיבי האנושי. מודל חזק כמו GPT‑5 mini עשוי להציג ביצועים טובים יותר מרוב האנשים במבחנים צרים במעבדה, אך עדיין להישאר מתחת למה שיכולות להשיג קבוצות מגוונות של אנשים יחד, במיוחד כאשר מכונות פשוט חוזרות על אותן שגיאות. הגישה האמינה ביותר למשימות כמו קריאת רגשות מפנים אינה להחליף אנשים בידי המחשב, אלא לשלב תובנה אנושית עם עקביות מכונתית במערכות שעוצבו בקפידה ושומרות על מעורבות האדם.

ציטוט: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

מילות מפתח: זיהוי רגשות, אינטליגנציה קולקטיבית, שיתוף פעולה אדם‑מכונה, בינה מלאכותית מולטימודלית, קוגניציה חברתית