Clear Sky Science · ar

دمج موجه بالدقة لفهم المشاعر متعددة الوسائط

· العودة إلى الفهرس

لماذا السخرية عبر الإنترنت صعبة على الآلات

السخرية منتشرة في الإنترنت: صورة لشاطئ مشمس مع وسم «طقس فظيع اليوم»، أو سيلفي مبتسم مع تعليق «أحب الاختناقات المرورية حقًا». يلتقط البشر النكتة على الفور لأننا نشعر بتناقض ما نراه وما نقرأه. لكن الحواسيب تكافح مع هذا المعنى المزدوج، خاصة عندما تخلط المنشورات بين الصور والنصوص والإشارات الثقافية الخفية. تقدم هذه الورقة نموذج ذكاء اصطناعي جديد ينظر إلى منشورات وسائل التواصل الاجتماعي بطريقة أكثر طبقاتية، مما يساعد الآلات على ملاحظة التناقضات الدقيقة وفهم متى يكون الناس ساخرين بشكل أفضل.

Figure 1
Figure 1.

النظر إلى المنشورات من أكثر من زاوية

تركزت معظم الأنظمة السابقة لرصد السخرية على النص أو على مزيج بسيط من النص والصورة. غالبًا ما اعتبروا كل صورة أو جملة كتلة واحدة من المعلومات ونظروا فقط في مدى اتفاق أو اختلاف الكتلتين. يجادل المؤلفون أن هذا مبسط جدًا: داخل الصورة الواحدة أو الجملة قد توجد العديد من الإشارات المنفصلة حول الشعور الحقيقي وراء المنشور. فعلى سبيل المثال، قد تتضارب صورة مشرقة ومبهجة مع عبارة كئيبة، أو قد تصبح صورة محايدة ساخرة فقط عند اقترانها بعبارة معينة. لالتقاط هذه الفوارق الدقيقة، يحتاج النموذج إلى النظر داخل كل قطعة من المحتوى على مستويات مختلفة من التفاصيل.

تفكيك المعنى إلى قطع صغيرة

يبدأ النظام المقترح، المسمى شبكة الدمج داخل-الوسيط وبين-الوسائط الموجهة بالدقة (GIIFN)، باستخدام أدوات قوية مدربة مسبقًا: محول بصري لفهم الصور ونموذج لغوي لفهم النص. كما يضيف مصدرًا ثالثًا للمعلومات عبر تشغيل أداة تعليق آلية على الصورة، منتجة وصفًا قصيرًا يعمل كنوع من «المعرفة العامة» حول ما تُظهره الصورة. بدلًا من التعامل مع متجهات الميزات الناتجة ككتلة واحدة، يستخدم النموذج وحدة خاصة لتقسيمها إلى «دقّات» متعددة — مجموعات من الميزات تتعلم تلقائيًا. يقرر هذا التجميع القابل للتعلّم أي أجزاء من التمثيل تنتمي معًا، مكوّنًا وحدات دلالية صغيرة يمكنها إبراز، على سبيل المثال، الأشياء أو الحالات المزاجية أو العلاقات داخل المحتوى.

السماح للصور والكلمات بالتواصل مع بعضها

بمجرد تشكيل هذه الوحدات الدلالية، يسمح GIIFN لها بالتفاعل في عملية منظمة من ثلاث خطوات. أولًا، يصقل ما يعرفه عن الصورة بمفردها، مدمجًا الانطباعات العامة الخشنة مع التفاصيل البصرية الدقيقة. بعد ذلك، يجمع قطع الصورة المصقولة مع قطع النص، مستخدمًا آلية انتباه ذات اتجاهين: تنظر وحدات الصورة إلى وحدات النص وتنظر وحدات النص إلى وحدات الصورة. تساعد هذه التبادلات المتبادلة النظام على التقاط التناقضات، مثل سماء عاصفة مقترنة بعبارة مبتهجة. في الخطوة النهائية، يدمج النموذج وحدات وصف الصورة الغنية بالمعرفة، مما يعمق فهمه لما يحدث في المشهد وكيف يرتبط بالرسالة المكتوبة.

اختبار النموذج في الميدان

للتأكد مما إذا كانت هذه الطبقات الإضافية من التحليل مفيدة حقًا، اختبر الباحثون GIIFN على مجموعة بيانات على نطاق واسع من تويتر تحتوي على منشورات معلمة بأنها ساخرة أو لا، كل منها يحتوي على نص وصورة. قارنوا نظامهم بالعديد من الطرق الموجودة، بما في ذلك نماذج قوية تستخدم الرسوم البيانية أو الانتباه أو المعرفة الخارجية. حقق GIIFN أفضل الدرجات عبر مقاييس قياسية مثل الدقة ومقياس F1، وكانت نتائجه متسقة عبر تقسيمات تدريب–اختبار عشوائية مختلفة. أظهرت اختبارات الإبلشن الدقيقة، حيث أزيلت أجزاء فردية من النظام، أن تجميع الدقة القابل للتعلّم هو الذي قدم أكبر زيادة في الأداء، بينما أضافت التفاصيل البصرية الدقيقة والدمج المكوّن من ثلاث مراحل مكاسب ذات مغزى أيضًا.

Figure 2
Figure 2.

ماذا يعني هذا لفهم العاطفة على الإنترنت

بعبارات يومية، تُظهر هذه الدراسة أن الآلات يمكن أن تتحسن في «القراءة بين السطور» عبر تفكيك المنشورات إلى قطع أصغر ذات معنى والسماح للصور والكلمات والمعرفة الخلفية بالتأثير في بعضها البعض. يجعل التصميم الطبقي لـ GIIFN من الأسهل على الخوارزمية اكتشاف متى يتصادم المعنى السطحي للمنشور مع قصده الكامن، وهو سمة مميزة للسخرية. بعيدًا عن اكتشاف النكات والتهكم، يمكن أن تساعد نفس الأفكار الأنظمة المستقبلية على تفسير المشاعر عبر الإنترنت بشكل أكثر موثوقية، محسنًة أدوات لمراقبة المحتوى، وكشف الإشاعات، ومراقبة الصحة العقلية، مع التكيف مع الطبيعة الغنية والمتعددة الوسائط لمنصات التواصل الحديثة.

الاستشهاد: Chen, M., Tang, H., Sun, C. et al. Granularity-guided fusion for multi-modal sentiment understanding. Sci Rep 16, 13286 (2026). https://doi.org/10.1038/s41598-026-43363-5

الكلمات المفتاحية: كشف السخرية, المشاعر متعددة الوسائط, تحليل وسائل التواصل الاجتماعي, التعلّم العميق, نماذج الرؤية واللغة