Clear Sky Science · ar

الاستبدال باللهجات كنهج عدائي لتقييم متانة معالجة اللغة العربية

2026-01-22 · العودة إلى الفهرس

لماذا تحير العربية اليومية الحواسيب الذكية

تقرأ العديد من التطبيقات الآن النصوص العربية لتقدير المشاعر، فرز الأخبار، أو الإجابة عن الأسئلة. ومع ذلك، تتعلم هذه الأنظمة في الغالب من العربية الفصحى الحديثة، بينما يخلط الناس في الواقع اللهجات الإقليمية يومياً. يوضح هذا المقال كيف أن استبدال كلمة واحدة فقط باللهجة المصرية أو الخليجية يمكن أن يخدع نماذج اللغة المتطورة، مما يثير القلق لأي جهة تعتمد على الذكاء الاصطناعي العربي في خدمة العملاء أو رصد الوسائط أو السلامة على الإنترنت.

لغة واحدة أصوات متعددة

العربية ليست نمطاً موحداً للسّلامة. تُستخدم الفصحى في المدارس والأخبار والكتابات الرسمية، لكن المحادثات اليومية تعتمد على لهجات مثل المصرية والخليجية. تختلف هذه الصيغ في المفردات وأشكال الكلمات وحتى في بنية الجملة. على سبيل المثال، كلمة بسيطة مثل «الآن» لها أشكال مختلفة جداً بين المناطق. بالنسبة للقرّاء البشر، تبدو هذه التباينات طبيعية وسهلة الفهم. أما لنماذج الحاسوب المدربة تقريباً بالكامل على الفصحى، فقد تبدو كلمات اللهجات غريبة، فتتحول جملة واضحة إلى شيء محيّر.

تحويل اللهجات إلى اختبار إجهاد للذكاء الاصطناعي

لاختبار مدى هشاشة نماذج اللغة العربية فعلاً، يصمم المؤلف اختباراً بسيطاً من خطوتين. أولاً، يُستجوب النموذج مراراً لتحديد الكلمة المفردة في الجملة التي تُؤثر أكثر على قراره — غالباً صفة قوية أو فعل محوري أو اسم موضوعي. ثانياً، تُستبدل تلك الكلمة الوحيدة بما يكافئها في العربية المصرية أو الخليجية باستخدام نموذج «لهجوي» كبير مُحسّن بعناية. يبقى باقي الجملة كما هو، وتظل المعنى نفسه واضحاً للبشر. هذا يجعل الجملة المعدّلة مثالاً عدائياً واقعياً: تعديل طفيف ومظهره طبيعي مصمَّم لخداع النظام دون تغيير الرسالة المقصودة.

اختبار تقييمات الفنادق والقصص الإخبارية

يهاجم البحث أربعة نماذج عميقة معروفة: نموذجان كبيران من المحولات (AraBERT وCAMeLBERT) وشبكتان أصغر (نموذج تلافيفي ونموذج LSTM ثنائي الاتجاه). تُدرَّب هذه النماذج على مجموعتين رئيسيتين من بيانات الفصحى: تقييمات الفنادق لتحليل المشاعر ومقالات الأخبار لتصنيف الموضوعات. من كل مجموعة اختبار، يسحب المؤلف 1280 مثالاً ويطبق إجراء الاستبدال اللهجي. ومع أن كلمة واحدة فقط في كل جملة تُغيّر، فإن الأثر ملفت. في تقييمات الفنادق، تنخفض دقة AraBERT من 94 بالمئة على النص النظيف إلى نحو 72 بالمئة مع استبدالات خليجية و65 بالمئة مع استبدالات مصرية. ينخفض أداء CAMeLBERT أكثر، إلى نحو 63 و55 بالمئة على التوالي. تعاني مصنّفات الأخبار أيضاً: يخسر النموذج التلافيفي نحو 18 إلى 22 نقطة مئوية، ويُظهر LSTM تراجعات مماثلة.

ما الذي ينهار داخل النماذج

يكشف فحص أدق أن الكلمات الأكثر ضعفاً تتوافق مع الطريقة التي يقرأ بها الناس النص فعلاً. في تقييمات الفنادق، ما يقارب نصف الكلمات المستهدفة هي صفات مثل «جيد» أو «فظيع» التي تحمل وزناً عاطفياً واضحاً. في مقالات الأخبار، معظم الكلمات المُختارة هي أسماء وألقاب تشير إلى موضوعات مثل السياسة أو الرياضة أو المال. عندما تُستبدل تلك الكلمات المحفزة بأشكال لهجية، تفشل النماذج المدربة على الفصحى وحدها في كثير من الأحيان في التعرف عليها. تُظهر نماذج المحولات هشاشة خاصة: اعتمادها على شظايا الكلمات واهتمامها بعدد قليل من الرموز ذات الوزن العالي يجعل كلمة لهجية واحدة كافية لقلب التنبؤ. النماذج الأصغر، التي توزّع الانتباه بشكل أكثر توازناً عبر الجملة، تُخدع أيضاً لكنها أكثر متانة قليلاً.

مصر أم الخليج: ليست كل اللهجات متساوية

تُظهر الهجمات أيضاً أن العربية المصرية تميل إلى تعطيل النماذج أكثر من العربية الخليجية. تدعم الدراسات اللغوية هذا الرصد: غالباً ما تبقى الصيغ الخليجية أقرب إلى الفصحى في المفردات والبنية، بينما امتصت المصرية أشكالاً مميزة أكثر عبر التاريخ والاحتكاك بلغات أخرى. نتيجة لذلك، أحياناً تشبه الاستبدالات الخليجية الأصل الفصحى بما يكفي ليستطيع النموذج التكيّف، في حين أن الاستبدالات المصرية أكثر احتمالاً أن تقع خارج ما رآه النموذج سابقاً. تؤكد الاختبارات الإحصائية أن الانخفاضات في الأداء ليست عشوائية — بل تعكس نقاط عمياء منهجية في كيفية تعامل الأنظمة الحالية مع الظاهرة الثنائية اللغة (الفصحى واللهجات).

ماذا يعني هذا للذكاء الاصطناعي العربي

للمستخدمين اليوميين، الخلاصة بسيطة: يمكن للذكاء الاصطناعي العربي الحالي أن يتشوّش بسهولة بكلمات لهجية عادية، حتى عندما يجد البشر النص واضحاً تماماً. قد تقلب كلمة لهجية واحدة في تقييم فندق حكم النموذج من إيجابي إلى سلبي، أو تُصنّف موضوع خبر بشكل خاطئ. للباحثين والمطورين، الرسالة دعوة لبناء أنظمة «واعية بالثنائية اللغوية» تتدرّب على كل من الفصحى واللهجات الإقليمية، واستخدام اختبارات إجهاد واقعية مثل الاستبدال اللهجي عند تقييم المتانة. حتى ذلك الحين، أي تطبيق يفترض أن «العربية هي مجرد فصحى» يغامر بسوء فهمات خطيرة في الواقع.

الاستشهاد: Alshemali, B. Dialectal substitution as an adversarial approach for evaluating Arabic NLP robustness. Sci Rep 16, 5996 (2026). https://doi.org/10.1038/s41598-026-36252-4

الكلمات المفتاحية: معالجة اللغة العربية, التباين اللهجي, أمثلة عدائية, تحليل المشاعر, تصنيف النصوص