Clear Sky Science · ar

الذكاء الجماعي والمعزز يتفوقان على الذكاء الاصطناعي في اختبارات تمييز العاطفة

· العودة إلى الفهرس

لماذا يهم هذا في الحياة اليومية

من الأفضل في قراءة العواطف من لمحة إلى عيون شخص ما: البشر أم الآلات؟ مع انتقال أنظمة الذكاء الاصطناعي إلى المدارس والعيادات وأماكن العمل، تعدّ العديد من الأدوات بتقييم المزاج والحالات الذهنية من الوجوه. تُظهر هذه الدراسة أنه بينما يمكن لنموذج ذكاء اصطناعي قوي أن يتفوق على معظم الأفراد في اختبارات المختبر المتعلقة بالعواطف، تظل مجموعات الأشخاص الذين يعملون بشكل مستقل هي الأفضل، وتظهر أفضل النتائج عندما تُدمَج أحكام البشر والآلات معًا.

Figure 1. البشر مع الذكاء الاصطناعي معًا يحكمون على العواطف من العينين بدقة أكبر من أيٍّ منهما بمفرده.
Figure 1. البشر مع الذكاء الاصطناعي معًا يحكمون على العواطف من العينين بدقة أكبر من أيٍّ منهما بمفرده.

كيف تعمل اختبارات قراءة العاطفة

ركز الباحثون على مهمتين مستخدمتين على نطاق واسع في المختبر تطلبان من الناس استنتاج المشاعر والأفكار من صور منطقة العين فقط. في كل اختبار، يرى المشاهد صورة ويجب أن يختار أي من أربع كلمات قصيرة تتطابق أفضل مع الحالة الذهنية للشخص. يستخدم أحد الاختبارين صورًا بالأبيض والأسود مأخوذة في الغالب من مجموعة عرقية واحدة، بينما تتضمن النسخة الأحدث صورًا ملونة لأشخاص من خلفيات أكثر تنوعًا وتستخدم مفردات أبسط. تربط عقود من البحث درجات هذه الاختبارات بالمهارات الاجتماعية والنتائج السريرية، رغم أنها ليست مرآة كاملة للحياة العاطفية الواقعية.

كيف يقارن نموذج رائد بالناس الأفراد

قيّم الفريق نموذجًا لغويًا متعدد الوسائط قويًا يُدعى GPT-5 mini، القادر على تحليل الصور والنصوص. شغّلوا النموذج 100 مرة على كل عنصر اختبار، من دون إعطاء أمثلة تدريبية، لالتقاط أدائه الأساسي. مقارنةً ببيانات أكثر من 27,000 مشارك بشري، أجاب GPT-5 mini بشكل صحيح نحو 83 في المئة من الوقت في كلا الاختبارين، بوضوح أعلى من المتوسطات البشرية البالغة 71 و63 في المئة. أظهرت التحليلات التفصيلية عبر نطاق القدرات البشرية أن الذكاء الاصطناعي تفوق على تقريبًا جميع الأشخاص ذوي الدرجات المنخفضة والمتوسطة. على الاختبار الأقدم، مع ذلك، طابق أو تفوق أفضل الناس قليلًا على النموذج، بينما حافظ النموذج على تقدمه حتى في أعلى المستويات على الاختبار متعدد الأعراق الأحدث.

لماذا تتفوق حشود البشر على حشود الآلات

بعد ذلك، سأل الباحثون ماذا يحدث عند جمع العديد من الإجابات المنفصلة. حاكى الفريق الحشود عن طريق أخذ عينات متكررة من مجموعات من الأشخاص، أو مجموعات من تشغيلات النموذج، وترك الإجابة الأكثر شيوعًا تفوز، وهي قاعدة بسيطة تسمى تصويت الأغلبية النسبية. تحسنت دقة حشود البشر بشكل حاد مع زيادة الحجم؛ عندما جُمِعت إجابات 100 شخص، اقتربت الدقة في أحد الاختبارين من الكمال. بالمقابل، لم تكسب حشود الآلات الكثير من إضافة تشغيلات أكثر. تميل استجابات طلبات متعددة لنفس النموذج إلى تكرار نفس الأخطاء، لذا لم تستطع المجموعة تصحيح أخطائها بنفسها. في الواقع، كان الأمر أشبه بطرح نفس السؤال على نفس الخبير مرات عديدة، بدلًا من الاستفادة من تجارب حياة متنوعة.

البشر والذكاء الاصطناعي معًا يقدمون أفضل أداء

كانت الخطوة الأخيرة خلط أصوات البشر والذكاء الاصطناعي. بنى الباحثون حشودًا هجينة يكون معظم أعضائها من الناس وحصة أصغر من تشغيلات النموذج، مع مساهمة كل طرف بالإجابات بشكل مستقل قبل دمجها. تفوقت هذه المجموعات المعززة باستمرار على كل من الحشود البشرية فقط وحشود الذكاء الاصطناعي فقط. على الاختبار الأحدث الأكثر شمولًا، لم يتمكن لا البشر ولا الذكاء الاصطناعي بمفردهما من تجاوز نحو 95 في المئة دقة، لكن المجموعات المختلطة بلغت نحو 98 في المئة، وحققت ذلك بأحجام حشود أصغر. يشير هذا النمط إلى أن البشر والآلات يميلون إلى ارتكاب أنواع مختلفة من الأخطاء، لذا تكمل نقاط قوتهما بعضها بعضًا بشكل طبيعي.

Figure 2. أخطاء البشر والذكاء الاصطناعي تختلف، لذا يجري الجمع بين تخميناتهما العاطفية لإصدار قرار نهائي أكثر دقة.
Figure 2. أخطاء البشر والذكاء الاصطناعي تختلف، لذا يجري الجمع بين تخميناتهما العاطفية لإصدار قرار نهائي أكثر دقة.

ماذا يعني هذا لاستخدام ذكاء العاطفة الاصطناعي

تخلص الدراسة إلى أن مقارنة الذكاء الاصطناعي بـ"الإنسان المتوسط" قد تكون مضللة، لأنها تتجاهل قوة الحكم البشري الجماعي. قد يتفوق نموذج قوي مثل GPT-5 mini على معظم الأفراد في اختبارات ضيقة بالمختبر، ومع ذلك قد يظل أقل مما يمكن أن تحققه مجموعات بشرية متنوعة معًا، خاصة عندما يكرر الآلات نفس الأخطاء ببساطة. النهج الأكثر موثوقية لمهام مثل قراءة العواطف من الوجوه ليس أن يستبدل الذكاء الاصطناعي البشر، بل أن يقترن البصيرة البشرية بثبات الآلة ضمن أنظمة مصممة بعناية تحافظ على مشاركة البشر في العملية.

الاستشهاد: Akben, M., Gude, V. & Ajjan, H. Collective and augmented intelligence outperform artificial intelligence on emotion recognition tests. Sci Rep 16, 14823 (2026). https://doi.org/10.1038/s41598-026-45331-5

الكلمات المفتاحية: تمييز العاطفة, الذكاء الجماعي, تعاون الإنسان والذكاء الاصطناعي, الذكاء الاصطناعي متعدد الوسائط, الإدراك الاجتماعي