Clear Sky Science · ar

التعرّف على تعابير الوجه عبر الاستدلال التغييري

· العودة إلى الفهرس

قراءة المشاعر من الوجوه

تبعث وجوهنا باستمرار إشارات عن شعورنا، لكنها نادراً ما تكون بسيطة. قد يخفي الابتسامة توتراً، وقد يجمع المظهر «الحيادي» بين الملل والاضطراب. تقدم هذه الدراسة نظامًا ذكياً جديدًا اسمه POSTER-Var، يهدف إلى قراءة مثل هذه المشاعر الدقيقة والمختلطة بدقة أعلى من أدوات تعرّف التعابير الحالية، مما قد يحسّن كل شيء من التفاعل بين الإنسان والحاسوب إلى مراقبة الصحة العقلية.

لماذا العواطف ليست مسألة تشغيل/إيقاف

تعامل معظم أنظمة تعرّف التعابير الموجودة العواطف كصناديق منفصلة ومحددة: سعيد، حزين، غاضب وهكذا. في الواقع، تُظهر دراسات علم النفس أن التعبيرات مزيج من عواطف أساسية بأثمان متفاوتة تظهر في آن واحد على الوجه. تجبر النماذج التقليدية عادة كل صورة على تسمية واحدة جامدة، متجاهلةً عدم اليقين والطبيعة المستمرة والمتدرجة للمشاعر. هذا يجعلها هشة في ظروف العالم الحقيقي الفوضوية، حيث يضيف الإضاءة والوضع وحتى التوسيم البشري المتناقض ضوضاء. يجادل المؤلفون بأن الأنظمة المستقبلية يجب أن تعترف بأن الوجه قد يدل على عدة عواطف بشدات مختلفة، وأن على الحواسيب أن تستنتج على أساس الاحتمالات بدلاً من قرارات نعم/لا.

Figure 1
Figure 1.

السماح للنموذج باحتضان عدم اليقين

لمواءمة أفضل مع هذه الحقيقة المعقدة، يبني الفريق على تقنية من النمذجة الاحتمالية الحديثة تُعرف بالاستدلال التغييري. بدلاً من إنتاج درجة واحدة ثابتة لكل عاطفة، يقوم نظام POSTER-Var بتعيين ميزات الوجه إلى «فضاء كامن» حيث تمثل كل عاطفة بتوزيع احتمالي، عادةً على شكل منحنى جرس. أثناء التدريب، يستخرج النظام عينات من هذه التوزيعات المتعلمة، مما يشجّعه على استكشاف مجموعة من التفسيرات المحتملة لكل وجه. أما عند الاختبار، فيستخدم مراكز هذه التوزيعات للحصول على توقعات مستقرة. والأهم أن POSTER-Var يزيل عمليات فك الترميز والطبقات الموصولة بالكامل الإضافية المستخدمة في التصاميم التغييرية السابقة، معاملة التمثيل الاحتمالي نفسه كإشارة القرار النهائية. هذا الرأس التصنيفي المبني على الاستدلال التغييري (VICH) المبسَّط يمكّن النموذج من قياس عدم اليقين مع الحفاظ على الكفاءة والدقة.

رؤية الوجه على مقاييس متعددة

يتطلب التعرف على التعابير كذلك النظر إلى أجزاء مختلفة من الوجه وعلى مستويات تفاصيل متفاوتة: انحناءة الفم، شكل العينين، والتكوين العام كلها مهمة. يوسّع POSTER-Var نظامًا سابقًا قويًا (POSTER++) بتحسين طريقة دمج هذه الميزات متعددة المقاييس. يستخدم عدة آليات انتباه لدمج المعلومات من العمود الفقري الصوري القياسي وكاشف معالم الوجه، الذي يتتبّع نقاطًا رئيسية مثل زوايا العين وحواف الفم. تضع «تضمينة الطبقة» علامة على كل خريطة ميزات بموقعها ومستواها الدلالي في هرم المعالجة، مما يساعد الشبكة على فهم مصدر التفاصيل. ثم تعيد التحويلات غير الخطية وكتلة انتباه القنوات المعززة موازنة هذه الميزات، معززةً تلك الأكثر معلوماتية لتفسير التعابير ومكبِّحةً عوامل الإلهاء مثل فوضى الخلفية أو الخصائص الخاصة بالهوية.

Figure 2
Figure 2.

اختبار النظام

قيّم الباحثون POSTER-Var على ثلاث مجموعات بيانات واقعية مستخدمة على نطاق واسع: RAF-DB وAffectNet وFER+. تتضمن هذه المجموعات مئات الآلاف من الوجوه الملتقطة في ظروف غير مضبوطة، وكل منها معنونة بإحدى العواطف الأساسية. عبر جميع المعايير، حقق POSTER-Var أداءً مطابقًا أو متفوقًا على طرق الحالة-الأحدث. على سبيل المثال، بلغ دقته حوالى 93% على RAF-DB وحوالي 92% على FER+، وسجل تحسناً طفيفاً على نسخ AffectNet ذات 7 و8 فئات. أظهرت تجارب الإقصاء، حيث أُزيلت مكونات فردية، أن كل من تضمينة الطبقة والرأس التغييري أسهما بشكل ملحوظ في الأداء، مع فائدة خاصة للمكون التغييري على مجموعات البيانات الأصعب وغير المتوازنة. كشفت تصورات خرائط الانتباه أن POSTER-Var يركّز على مناطق وجه أوسع وأكثر دلالة من الأساس، وأظهرت مخططات التوزيعات العاطفية المتعلمة كيف يفصل أفضل، على سبيل المثال، بين «حزين» و«حيادي» في الحالات الغامضة.

ماذا يعني هذا لتطبيقات العالم الحقيقي

بعبارة بسيطة، يعلّم POSTER-Var الآلات أن تعامل تعابير الوجه أقل كإشارات مرور وأكثر كتوقعات جوية: قد يكون هناك مزاج «مشمس» رئيسي مع لمحات «غائمة» متناثرة، وينبغي للتوقع أن يعترف بعدم اليقين. من خلال نمذجة توزيعات كاملة على العواطف بدلاً من تخمين واحد، يصبح النظام أكثر متانة أمام الوسوم الصاخبة والتعابير الدقيقة والمختلطة. تشير الدراسة إلى أن مثل هذه النهج الاحتمالية يمكن أن تكون أساس الجيل التالي من التقنيات الحساسة للمشاعر، مما يجعل المساعدين الافتراضيين والروبوتات الاجتماعية وأدوات البحث السلوكي أكثر انسجامًا مع الحياة العاطفية المعقدة التي تكشف عنها وجوهنا بشكل غير كامل.

الاستشهاد: Lv, G., Zhang, J. & Tsoi, C. Facial expression recognition via variational inference. Sci Rep 16, 7323 (2026). https://doi.org/10.1038/s41598-026-38734-x

الكلمات المفتاحية: التعرّف على تعابير الوجه, الذكاء الاصطناعي العاطفي, النمذجة الاحتمالية, الاستدلال التغييري, رؤية الحاسوب