Clear Sky Science · ar
تقييم قدرات التعرف على العاطفة عبر أعراق مختلفة في نماذج اللغة الكبيرة متعددة الوسائط باستخدام اختبار قراءة العقل من خلال العيون
لماذا يهم هذا في الحياة اليومية
تخيل برنامجا حاسوبيا يمكنه النظر إلى عيون شخص ما والتكهن بما يشعر به—أحيانا بدقة تفوق معظم الناس. يسأل هذا البحث عما إذا كانت مثل هذه الأنظمة قادرة على فعل ذلك بعدل تجاه أشخاص من خلفيات عرقية مختلفة. مع دخول أدوات الذكاء الاصطناعي إلى الرعاية الصحية والتعليم والتطبيقات اليومية، يصبح معرفة ما إذا كانت تعامل المجموعات المختلفة على قدم المساواة أمرا محوريا للثقة والسلامة والأخلاقيات.

البحث عن المشاعر في العيون
ركز الباحثون على اختبار نفسي معروف باسم «قراءة العقل من خلال العيون». في هذا الاختبار، تُعرض منطقة العينين فقط من الوجه، ويجب على المشاهد اختيار أي عاطفة أو حالة ذهنية تعبر عنها العيون. هناك ثلاث نسخ من الاختبار، كل واحدة تستخدم صورا لأشخاص بيض أو سود أو كوريين. غالبا ما يجد الناس صعوبة أكبر في الحكم على عواطف وجوه من مجموعة عرقية أخرى، وهو نمط يُعرف باسم «تأثير العرق الآخر». سأل البحث ما إذا كانت أنظمة الذكاء الاصطناعي المتقدمة تظهر ضعفا مشابها، أم أنها قادرة على التعرف على المشاعر بنفس القدر عبر هذه المجموعات المختلفة من الوجوه.
اختبار ثلاثة أنظمة ذكاء اصطناعي
قيّم الفريق ثلاثة نماذج كبيرة متعددة الوسائط شائعة—أنظمة تستطيع معالجة كل من الصور والنص. اختبروا نموذج قائم على GPT-4 قديم، ونموذج أحدث قائم على GPT-4o، ونظام منافس يدعى Claude 3 Opus. أكمل كل نموذج النسخ الثلاث من اختبار العيون مرتين، حتى يتمكن الباحثون من فحص كل من الدقة والاتساق عبر الزمن. رأت نماذج الذكاء الاصطناعي كل صورة عين مع أربع إجابات محتملة وكان عليها اختيار واحدة، تماما كما يفعل الممتحن البشري. ثم قارن العلماء درجات الذكاء الاصطناعي بتلك التي حققتها مجموعات كبيرة من الناس الذين أجروا نفس الاختبارات سابقا.
مدى أداء الآلات
برز نموذج GPT-4o الأحدث. أجاب بشكل صحيح في حوالي 83% من البنود لوجوه بيضاء، و94% لوجوه سوداء، و86% لوجوه كورية. تضع هذه الدرجات أداءه تقريبا بين النسبة المئوية 85 إلى 94 الأعلى مقارنة بأداء البشر، ما يعني أنه تفوق على معظم الأشخاص الذين أجروا هذه الاختبارات. والأهم أن نجاحه كان مشابها عبر المجموعات العرقية الثلاث، مما يشير إلى أنه لم يظهر نفس نوع التحيز العرقي الذي يعانيه الناس غالبا في مثل هذه المهام. أداء نموذج GPT-4 الأقدم كان أفضل من التخمين العشوائي لكنه اقترب من مستويات البشر المتوسطة، بينما تحرك Claude 3 Opus بالقرب من مستوى الصدفة، مؤديا كمن يخمن في الغالب.

ما وجدته الذكاء الاصطناعي سهلا وصعبا
للخروج عن مجموع الدرجات البسيط، فحص المؤلفون أنواع المشاعر التي تعاملت معها النماذج بشكل جيد أو سيئ. عبر الأنظمة، كان هناك ميل للتعرف بدقة على حالات داخلية مثل القلق أو الاضطراب أو التفكير. بالمقابل، واجهت النماذج صعوبة أكبر مع التعبيرات الاجتماعية الغنية والإيجابية التي تحمل معانٍ بين الأشخاص—مثل اللعبية أو الودّية أو المغازلة. خفّض نظام GPT-4o الأحدث هذه الأخطاء أكثر من غيره، ما يوحي بأن كل جيل جديد من الذكاء الاصطناعي قد يتحسن في التقاط إشارات اجتماعية دقيقة كانت تنجو عن النماذج السابقة.
ماذا قد يعني هذا للبشر
تثير النتائج إمكانات مثيرة وتحذيرات مهمة في آن واحد. من ناحية، قد يساعد نظام يمكنه قراءة المشاعر من الوجوه بمقدار ما يفعل أو أفضل من كثير من البشر—وبشكل مماثل عبر المجموعات العرقية—أخصائيين نفسيين أو أطباء أو معلمين بتقديم رأي ثانٍ أكثر استقرارا حول الإشارات الاجتماعية. من ناحية أخرى، للاختبار العيني نفسه حدود علمية جسيمة وقد لا يعكس الفهم الاجتماعي في الحياة الواقعية، الذي يعتمد على لغة الجسد ونبرة الصوت والسياق. يؤكد المؤلفون أن هذه النتائج لا تثبت أن الذكاء الاصطناعي يمتلك تعاطفا حقيقيا ولا أنه خالٍ من التحيز في سياقات أخرى. بدلا من ذلك، يقدم العمل نقطة مرجعية مبكرة: في مهمة ضيقة ومتحكم بها تركز على منطقة العينين، يبدو أن أحد أنظمة الذكاء الاصطناعي الحديثة دقيقة للغاية ومنصفة نسبيا عبر مجموعات عرقية مختلفة، لكن ثمة حاجة إلى مزيد من البحث قبل أن تؤثر هذه الأدوات على قرارات العالم الحقيقي.
الاستشهاد: Refoua, E., Elyoseph, Z., Piterman, D. et al. Evaluation of cross-ethnic emotion recognition capabilities in multimodal large language models using the reading the mind in the eyes test. Sci Rep 16, 9975 (2026). https://doi.org/10.1038/s41598-026-39292-y
الكلمات المفتاحية: التعرف على المشاعر, الذكاء الاصطناعي, الإدراك الاجتماعي, التحيز العرقي المتقاطع, الصحة العقلية