Clear Sky Science · ar

SiaCon-DetNet مع HySHO: إطار تعلم عميق متقدّم يعتمد على المحولات للتعرف الوجهي الواعي بالعاطفة

· العودة إلى الفهرس

لماذا يهم تعليم الحواسيب قراءة المشاعر

من مكالمات الفيديو إلى المدرّسين الافتراضيين وتطبيقات الصحة، نلتقي بالآلات من خلال الشاشات بشكل متزايد. مع ذلك تظل معظم هذه الأنظمة «صماء عاطفياً»: لا تلاحظ إن كنا مرتبكين أو مضغوطين أو مبتهجين. تقدم هذه الورقة إطار عمل جديد للذكاء الاصطناعي يقرأ تعابير الوجه البشرية بدقة وكفاءة أعلى من الطرق السابقة، بهدف جعل الأدوات الرقمية أكثر تفهماً وعدلاً وفائدة في الحياة اليومية.

كيف تمنح الوجوه الآلات نافذة على العاطفة

وجوهنا تبث باستمرار معلومات عن ما نشعر به، غالباً بصدق أكبر من كلماتنا. الابتسامات، العبوس، اتساع العينين، وارتعاشات العضلات الدقيقة تساعد الناس على إدارة المحادثات، وبناء الثقة، واكتشاف الضيق. لطالما سعى الباحثون في علم النفس وعلوم الأعصاب وعلوم الحاسوب لتعليم الآلات قراءة هذه الدلائل، وهو مجال يعرف باسم التعرف على عواطف الوجه. تظهر هذه التكنولوجيا بالفعل في منصات التعليم التي تتتبع تفاعل الطلاب، وفي أنظمة الألعاب التي تتكيف مع مزاج اللاعب، وفي أدوات طبية تراقب الألم أو الاكتئاب، وفي أنظمة أمنية تراقب علامَات الانفعال. لكن ظروف العالم الحقيقي فوضوية: تتغير الإضاءة، وقد تُغطى الوجوه جزئياً، وتختلف التعابير بين الأفراد والثقافات، ما يجعل قراءة العواطف موثوقة أمراً صعباً.

Figure 1
الشكل 1.

لماذا تفشل أنظمة العاطفة القديمة

كانت الأنظمة الحاسوبية المبكرة تعتمد على قواعد مصمَّمة يدوياً، تقيس ميزات بسيطة مثل التجاعيد والحواف أو شكل الفم والعينين. واجهت هذه الأساليب صعوبات مع تغيّر الوضعية أو الإضاءة أو اختلافات الأفراد. جلب التعلم العميق تقدماً عبر تمكين الشبكات العصبية من تعلم أنماط مفيدة تلقائياً من صور الوجه، لكن البنى الشائعة ما زالت لديها نقاط عمياء. تتفوق الشبكات التلافيفية في اكتشاف التفاصيل المحلية، لكنها تواجه صعوبة في ربط أجزاء بعيدة من الوجه، مثل كيفية تحرك العينين والفم معاً في تعبير مختلط. تلتقط نماذج المحولات الأحدث هذه العلاقات بعيدة المدى، لكنها قد تكون ثقيلة، وتحتاج بيانات كثيرة، وليست مثالية دائماً في التقاط التفاصيل الدقيقة. يحتاج كثير من الأنظمة الحالية أيضاً إلى ضبط يدوي دقيق لمئات الإعدادات الداخلية وغالباً ما تتعمم بشكل سيئ خارج البيانات التي دُربت عليها.

نهج جديد بعينين وتركيز انتباهي

يقترح المؤلفون SiaCon-DetNet، شبكة هجينة تجمع بين نقاط قوة عدة أفكار. أولاً، تستخدم بنية سيامية—فرعين معالجة متماثلين يريان صور وجه متطابقة—لتعلّم ما يميز فعلاً عاطفة عن أخرى. يساعد هذا التصميم التوأمي النموذج على ملاحظة فروق طفيفة بين، على سبيل المثال، الخوف والدهشة، اللذين قد يشتركان في عضلات مماثلة. داخل كل فرع تلتقط طبقات تلافيفية قواماً وأشكالاً دقيقة، مثل تقوّس الحاجب أو توتر الفم. فوق ذلك، يعمل مكوّن قائم على المحول كسلطة انتباه، يتعلم كيف ترتبط مناطق متباعدة في الوجه ببعضها ويركز على المناطق الأكثر إفادة. معاً تسمح هذه المكونات للنظام ببناء صورة غنية وواعية بالسياق لكل تعبير، حتى عندما تكون الوجوه مخفية جزئياً أو مضاءة بشكل غير متساوٍ.

ضبط مستوحى من الطبيعة لتعلّم أسرع وأكثر حدة

تصميم نموذج قوي ليس إلا نصف المعركة؛ يجب أيضاً ضبطه ليتعلم بسرعة دون الإفراط في التخصيص. لمعالجة هذا، تقدم الورقة HySHO، مخطط تحسين «مستوحى بيولوجياً» يمزج استراتيجيات مستلهَمة من طائر جارح (الحدأة الشمالية) وقط صحراوي. يستكشف جزء منه مجموعة واسعة من الإعدادات، مثل معدلات التعلم وحجوم المرشحات، ما يمنع النظام من الوقوع في حلول ضعيفة. يقوم الجزء الآخر بتعديلات دقيقة في المناطق الواعدة، معجلاً التقارب. يرتبط هذا الضبط الديناميكي بمدى تباين تعابير الوجه في مجموعة بيانات معينة، مما يتيح للنموذج ضبط نفسه عند مواجهة عواطف دقيقة أو مختلطة أو ضوضائية. نتيجة لذلك، يصبح التدريب أسرع وأكثر صلابة، داعماً تطبيقات في الزمن الحقيقي أو القريبة من الزمن الحقيقي.

Figure 2
الشكل 2.

وضع النظام تحت الاختبار

لتقييم إطار العمل، اختبر الباحثون النظام على ثلاث مجموعات بيانات عاطفية مستخدمة على نطاق واسع تختلف في الحجم والصعوبة. تشمل هذه المجموعات تعابير مفروضة وطبيعية عبر عدة مشاعر أساسية مثل الغضب والخوف والسعادة والحزن والاشمئزاز والدهشة والمحايدية. بلغ النظام الجديد نحو 99 بالمئة دقة على أفضل معيار معروف وحافظ على مؤشرات دقة واستدعاء وF1 مثيرة للإعجاب عبر معظم فئات العاطفة تقريباً. والأهم أنه فعل هذا أثناء تدريبه بسرعة أكبر من العديد من نماذج التعلم العميق الشائعة المبنية على بنى صور معروفة. أظهرت تحليلات كيفية ترابط العواطف المختلفة في كل مجموعة بيانات أن النموذج تعامل مع الأزواج المعقدة—مثل الغضب مقابل الاشمئزاز أو الخوف مقابل الحزن—دون انخفاضات كبيرة في الأداء، مما يشير إلى أنه يلتقط البنية الدقيقة للتعابير بدلاً من حفظ الحالات الواضحة.

ماذا يعني هذا لتكنولوجيا كل يوم

بكلمات بسيطة، تُظهر الدراسة أنه يمكن تصميم ذكاء اصطناعي «ينظر» إلى الوجوه بطريقة أشبه بالبشر—يقارن الفروق الطفيفة، يفهم السياق عبر الوجه بأكمله، ويضبط استراتيجية تعلمه ذاتياً أثناء العمل. يقدم إطار SiaCon-DetNet مع HySHO دقة عالية للغاية مع كونه نسبياً خفيفاً وسريع التدريب، مما يجعله مرشحاً قوياً لأدوات مستقبلية في فحص الصحة العقلية، والتدريس التفاعلي، وخدمة العملاء، والتقنيات المساعدة للأشخاص ذوي صعوبات التواصل. رغم بقاء أسئلة مهمة حول الخصوصية والرضا والإنصاف، تُقَرِّب هذه العمل الأنظمة الواعية بالعاطفة من قراءة مشاعرنا بشكل موثوق بما يكفي للرد بحساسية بدلاً من التخمين.»

الاستشهاد: M, S., M, U., K, T. et al. SiaCon-DetNet with HySHO: a cutting-edge transformer-based deep learning framework for emotion-aware facial recognition. Sci Rep 16, 14131 (2026). https://doi.org/10.1038/s41598-026-41890-9

الكلمات المفتاحية: التعرف على عواطف الوجه, التعلم العميق, نماذج المحولات, التفاعل بين الإنسان والحاسوب, الحوسبة الانفعالية