Clear Sky Science · he

הערכת יכולות זיהוי רגשות חוצות-אתניות במודלים לשוניים גדולים מולטימודליים באמצעות מבחן "קריאת המוח בעיניים"

· חזרה לאינדקס

מדוע זה חשוב לחיי היומיום

דמיינו תוכנה שיכולה להביט בעיניו של אדם ולהנחש מה הוא מרגיש — לפעמים בדיוק יותר מרוב האנשים. המחקר הזה בודק האם מערכות כאלה פועלות בהגינות כלפי אנשים מרקעים אתניים שונים. ככל שכלי בינה מלאכותית נכנסים לתחומי בריאות, חינוך ואפליקציות יומיומיות, חשוב לדעת אם הם מתייחסים לקבוצות שונות באופן שווה — דבר קריטי לאמון, לבטיחות ולמוסריות.

Figure 1
Figure 1.

מחפשים רגשות בעיניים

המחליפים התמקדו במבחן פסיכולוגי ידוע בשם "Reading the Mind in the Eyes". במשימה זו מוצג רק אזור העיניים של פנים, והצופה צריך לבחור איזו רגש או מצב נפשי מבטאים העיניים. קיימות שלוש גרסאות של המבחן, כל אחת משתמשת בתמונות של אנשים לבנים, שחורים או קוריאניים. אנשים לעיתים מתקשים יותר לשפוט רגשות מפנים של קבוצה אחרת — תופעה הידועה כ"אפקט הגזע האחר". המחקר שאל האם מערכות בינה מלאכותית מתקדמות מגלות חולשה דומה, או שהן יכולות לזהות רגשות באופן שווה בכל קבוצת הפנים הללו.

בחינת שלוש מערכות בינה מלאכותית

הצוות העריך שלושה מודלים פופולריים מולטימודליים — מערכות שיכולות לעבד גם תמונות וגם טקסט. הם בדקו מודל מבוסס GPT-4 ישן יותר, מודל חדש יותר מבוסס GPT-4o ומערכת מתחרה בשם Claude 3 Opus. כל מודל השלימו את שלוש גרסאות מבחן העיניים פעמיים, כדי שהחוקרים יוכלו לבדוק גם דיוק וגם עקביות לאורך זמן. המודלים ראו כל תמונת עיניים יחד עם ארבע תשובות אפשריות והיו צריכים לבחור אחת, בדיוק כפי שעושה נבחן אנושי. המדענים השוו אז את ציוני ה-AI לאלה של קבוצות גדולות של בני אדם שעברו בעבר את אותם מבחנים.

כמה טוב המכונות עמדו במשימה

המודל החדש GPT-4o בלט. הוא ענה נכון בכ-83% מהפריטים עבור פנים לבנות, 94% עבור פנים שחורות ו-86% עבור פנים קוריאניות. ציונים אלה מציבים אותו בערך בפרסנטיל ה-85 עד ה-94 בהשוואה לביצועי בני אדם, כלומר הוא ביצע טוב יותר מרוב האנשים שלקחו את המבחנים. באופן חשוב, הצלחתו הייתה דומה בכל שלוש הקבוצות האתניות, מה שמרמז שהוא לא הראה את סוג ההטייה האתנית שאנשים לעיתים מראים במשימות כאלה. המודל הישן מבוסס GPT-4 עשה טוב יותר מהניחוש האקראי אך קיבל ציונים הקרובים לרמות האנושיות הממוצעות, בעוד Claude 3 Opus נע בסמוך להסתברות מקרית, והתפקד כאילו רוב הזמן ניחש.

Figure 2
Figure 2.

מה ה-AI מצא קל ומה קשה

כדי להתקדם מעבר לסכומי ציונים פשוטים, המחברים בחנו אילו סוגי רגשות המודלים טיפלו בהם היטב או בקושי. בכל המערכות הם נטו לזהות מצבי внутрיים כמו דאגה, אי-נוחות או חשיבה בדיוק גבוה. לעומת זאת, הם התקשו יותר עם הבעות חברתיות חיוביות עשירות שנושאות משמעות בין-אישית — כגון שובבות, ידידותיות או פלרטטנות. המערכת החדשה GPT-4o צמצמה יותר את השגיאות האלה בהשוואה לאחרות, מרמזת שכל דור חדש של AI עשוי להשתפר בזיהוי רמזים חברתיים עדינים שמודלים קודמים מפספסים.

מה הדבר יכול לה означת לאנשים

הממצאים מעוררים גם אפשרויות מרגשות וגם אזהרות חשובות. מצד אחד, מערכת שיכולה לקרוא רגשות מפנים באופן מושווה או טוב יותר מרבים מבני האדם — ובעשותה כן באופן דומה בין קבוצות אתניות — עשויה בעתיד לסייע לפסיכולוגים, רופאים או מורים כהסתכלות שנייה יציבה יותר על רמזים חברתיים. מצד שני, מבחן העיניים עצמו מוגבל מבחינה מדעית ועלול לא לשקף הבנה חברתית בחיים האמיתיים, התלויה בשפת גוף, טון הדיבור והקשר. המחברים מדגישים שהתוצאות אינן מוכיחות של-AI יש אמפתיה אמיתית או שהוא חף מהטיות בהקשרים אחרים. במקום זאת, העבודה מציעה אבן בוחן ראשונית: למשימה צרה ומבוקרת המתמקדת באזור העיניים, לפחות אחד מהמודלים המודרניים נראה מדויק למדי ויחסית מאוזן בין קבוצות אתניות שונות, אך יש צורך במחקר רב יותר לפני שכלים כאלה ישפיעו על החלטות בעולם האמיתי.

ציטוט: Refoua, E., Elyoseph, Z., Piterman, D. et al. Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Sci Rep 16, 9975 (2026). https://doi.org/10.1038/s41598-026-39292-y

מילות מפתח: זיהוי רגשות, בינה מלאכותית, קוגניציה חברתית, הטייה חוצת-אתניות, בריאות הנפש