Clear Sky Science · ar
نظام خوارزمي لاكتشاف الأخبار الكاذبة بالعربية باستخدام الشبكات العصبية وتمثيلات المحولات مع وزن الفئات
لماذا يهم رصد القصص الكاذبة على الإنترنت
في عالم اليوم المترابط دائمًا، يمكن لعناوين مثيرة بالعربية أن تنتقل من صفحة فيسبوك قليلة الانتشار إلى ملايين الهواتف خلال دقائق. بعض هذه القصص مُصاغ بعناية كأكاذيب يمكن أن تلهب الرأي العام، تشوّه الانتخابات، أو تزرع عدم الثقة في المؤسسات. ومع ذلك، فقد بُنيت معظم الأدوات الآلية لرصد الأخبار الكاذبة للإنجليزية. يعالج هذا البحث تلك الفجوة عبر تصميم واختبار نظام فعّال قادر على وسم المقالات العربية المضللة بمستوى دقة يقترب من دقة مفحّصي الحقائق البشر.
بناء صورة واقعية للأخبار العربية
لمحاكاة الواقع المبعثر للمعلومات على الإنترنت، جمع الباحثون أولًا مجموعة كبيرة مختلطة تضم 7,474 مقالة إخبارية عربية نُشرت بين 2015 و2025. جاءت النصوص من غرف أخبار موثوقة، ومدوّنات غير محققة ومنشورات وسائل التواصل الاجتماعي، وعينات مترجمة من مجموعات بيانات معروفة للأخبار الكاذبة بالإنجليزية. وسُميت كل مادة كحقيقية أو كاذبة عبر تقاطع دقيق مع مصادر رسمية ومنصات التحقق العربية. فُحصت عيّنة فرعية بواسطة ثلاثة خبراء للتدقيق المزدوج، واتفاقهم القوي عزّز الثقة في موثوقية الوسوم. تعكس مجموعة البيانات النهائية كيف أن القصص الكاذبة في الواقع أقل عددًا من التقارير الحقيقية، وهو اختلال فئوي يعطل كثيرًا من الكواشف الآلية.

تعليم الآلات قراءة العربية بصدق
بدلاً من الاعتماد على عدّ الكلمات البسيط، لجأت الفريق إلى عائلة حديثة من نماذج اللغة تُسمى المحولات، القادرة على التقاط المعنى من السياق. استخدموا نموذجًا عربيًا معروفًا باسم CAMeLBERT، مدرّبًا خصيصًا على العربية الفصحى الحديثة، كقارئ متقدم. مرّت كل مقالة عبر سلسلة معالجة مبدئية متخصصة تنظف الرموز التعبيرية والروابط والحروف المزعجة مع الحفاظ على الفروق اللغوية المهمة في العربية. ثم حوّل CAMeLBERT كل نص منظّف إلى بصمة رقمية كثيفة تلتقط درجات دقيقة من المعنى والأسلوب والتركيب. أُدخلت هذه البصمات إلى شبكة عصبية عميقة مدمجة تتعلم الأنماط المميزة بين الأخبار الحقيقية والكاذبة.
معالجة الاختلال بين الحقيقية والكاذبة
تتمثل تحديات رئيسية في أن مقالات الأخبار الحقيقية تفوق الكاذبة في مجموعة البيانات، تمامًا كما هو الحال في الحياة اليومية. إذا تُرك ذلك دون معالجة، سيتصرف النموذج بحذر ويميل إلى تصنيف معظم القصص كحقيقية، متجاوزًا الأكاذيب الخطيرة. حاولت دراسات سابقة حلّ المشكلة بتكرار أمثلة الكاذبة النادرة، أو اختراع أمثلة صناعية، أو استبعاد بعض المقالات الحقيقية، لكن هذه الحيل قد تضيف ضوضاء أو تتخلص من معلومات مفيدة. بدلاً من تغيير البيانات نفسها، ركّز هذا العمل على حل على مستوى الخوارزمية يسمّى وزن الفئات. أثناء التدريب، تُصبح الأخطاء على المقالات الكاذبة أكثر "تكلفة" للنموذج من الأخطاء على الحقيقية. من دون تعديل البيانات، يدفع ذلك الشبكة العصبية إلى إعطاء اهتمام إضافي للفئة القليلة (الكاذبة) ورسم حد أكثر توازنًا بين القصص الحقيقية والكاذبة.

اختبار النظام
قارن الباحثون عدة مقاربات: نماذج تعليم آلي تقليدية تستخدم ميزات عدّ الكلمات، نفس الشبكة العصبية مغذّاة بواسطة نماذج محولات عربية مختلفة، وأفضل محول مدموج مع استراتيجيات موازنة متنوعة. برز CAMeLBERT كعمود فقري أقوى بين المحولات العربية، متفوقًا على بدائل مثل AraBERT وMARBERTv2 وAraELECTRA. عند إقرانه بوزن الفئات، صنّف النظام المبني على CAMeLBERT الأخبار العربية بدقة تقارب 95.5% وبدرجة F1 — توازن الدقة والاستدعاء — تقارب 96.2%. وبالقدر نفسه من الأهمية، خفّض النظام المضبوط بشدة الخطأ الأكثر إثارة للقلق: معاملة القصص الكاذبة كحقيقية. لفتح "الصندوق الأسود" أيضًا، طبّق الفريق أدوات تفسير حديثة (LIME وSHAP) تكشف أي المؤشرات والأنماط اللغوية في تمثيلات النموذج الداخلية تدفع المقال نحو قرار كاذب أو حقيقي.
ما يعنيه هذا للقراء اليوميين
من منظور القارئ العادي، يوضّح هذا البحث أن الآلات يمكن تدريبها لقراءة الأخبار العربية بطريقة مفصّلة بشكل مفاجئ، مكتشفة دلائل أسلوبية وسياقية دقيقة تفصل غالبًا المنشورات المختلقة عن التغطية المهنية. عبر الجمع بين نموذج لغوي مخصّص للعربية الفصحى الحديثة واستراتيجية تدريب واعية للعدالة، يقدم المؤلفون كاشفًا دقيقًا وخفيفًا نسبيًا — مناسبًا للاندماج في منصات التحقق من الحقائق، وغرف الأخبار، وأدوات مراقبة وسائل التواصل الاجتماعي. وبينما لا يحلّ محل الحكم البشري، يوفر هذا النظام أساسًا قويًا للتحقق الآلي من الحقائق بالعربية، مساعدًا في إبطاء انتشار المعلومات المضللة الضارة ودعم فضاء معلوماتي أكثر صحة في العالم الناطق بالعربية.
الاستشهاد: Saad, M., Abdelrazek, S. & Abdelmaksoud, I.R. An algorithmic system for arabic fake news detection using neural networks and transformer embeddings with class weighting. Sci Rep 16, 12226 (2026). https://doi.org/10.1038/s41598-026-45653-4
الكلمات المفتاحية: الأخبار الكاذبة العربية, نماذج المحولات, الشبكات العصبية, اختلال توازن الفئات, أنظمة التحقق من الحقائق