Clear Sky Science · ar

MnMR-GenA: خوارزمية جينية لإعادة تركيب الصيغ الشكلية لهجمات كسر الحماية في اللغات منخفضة الموارد

· العودة إلى الفهرس

لماذا يهم توفير ذكاء اصطناعي أكثر أمانًا بجميع اللغات

مع انتشار روبوتات الدردشة القوية حول العالم، يستخدمها الناس بمئات اللغات، وليس فقط الإنجليزية أو الصينية. ومع ذلك، فإن العديد من فحوصات الأمان التي تمنع الإجابات الضارة مُخصصة بناءً على بيانات من لغات مدروسة جيدًا. تطرح هذه الورقة سؤالًا مقلقًا: هل توجد نقاط ضعف مخفية في اللغات الأقل استخدامًا حيث يمكن أن تتسلل الموجهات الضارة عبر الدفاعات بسهولة أكبر، وإذا كان الأمر كذلك، كيف يمكن للباحثين كشف هذه النقاط العمياء لجعل الأنظمة أكثر أمانًا؟

Figure 1. كيف يستغل المهاجمون احتياطات أضعف في اللغات الأقل استخدامًا لخداع روبوتات الدردشة لتقديم إجابات غير آمنة
Figure 1. كيف يستغل المهاجمون احتياطات أضعف في اللغات الأقل استخدامًا لخداع روبوتات الدردشة لتقديم إجابات غير آمنة

شقوق خفية في أمان الذكاء الاصطناعي متعدد اللغات

تتعلَّم نماذج اللغة الكبيرة من مجموعات هائلة من النصوص وتُعدَّل لاحقًا لتجنب تقديم نصائح حول الجريمة أو الكراهية أو مواضيع خطرة أخرى. ومع ذلك، يكون هذا الضبط عادةً أقوى في اللغات عالية الموارد التي تمتلك بيانات تدريب غنية. أما في اللغات منخفضة الموارد، فطبقة الأمان أرق بكثير. أظهرت أعمال سابقة أن مجرد ترجمة موجهٍ ضارٍ من الإنجليزية إلى مثل هذه اللغات يمكن أن يزيد احتمال أن يقدم النموذج إجابة غير آمنة. يركز المؤلفون على مجموعة خاصة من اللغات تُسمى اللغات التصاقية (agglutinative)، حيث تُبنى الكلمات الطويلة بربط قطع أقصر متعددة، مما يزيد بشكل كبير من الطرق التي يمكن أن يُصاغ بها الطلب الضار.

من الترجمة البسيطة إلى موجهات هجوم متطوِّرة

تنتمي معظم الهجمات الحالية إلى ثلاث مجموعات. تعتمد بعضها على قوالب مكتوبة يدويًا تطلب من النموذج «التظاهر» أو «تجاهل القواعد»، وهي قوالب تستغرق وقتًا لإنشائها ويسهل على الشركات سدها. يستخدم آخرون وصولًا مباشرًا لداخليات النموذج لتحوير المدخلات، لكن هذه الطرق غالبًا ما تُنتج سلاسل غير منطقية يمكن للمكتشفات اكتشافها بسهولة. وتعامل مجموعة ثالثة النموذج كصندوق أسود وتستخدم البحث أو التطور لإعادة كتابة الموجهات، غير أن ذلك غالبًا ما يجري على مستوى واحد فقط، مثل الجمل الكاملة، مما يقيد الإبداع وغالبًا ما يفسد المعنى. تعمل الهجمات المعتمدة على الترجمة بشكل أفضل في اللغات منخفضة الموارد، لكنها لا تزال متمسكة بالهيكل الأصلي للموجه الإنجليزي ولا تستغل بالكامل مرونة بناء الكلمات في اللغات التصاقية.

محرك تطوري لموجهات ماكرة

لتجاوز هذه القيود، صمم المؤلفون MnMR-GenA، إطارًا يعامل كل موجه ضار كسكانٍ من المتغيرات الحية التي تتطور مع الزمن. يبدأ من موجهات معروفة لكسر الحماية مترجمة إلى لغات منخفضة الموارد مثل المنغولية والتركية والغواراني، ثم يستخدم خوارزمية جينية لإعادة تركيبها وتحويرها. والأهم أن هذا التطور يحدث على ثلاثة مستويات في آنٍ واحد. على مستوى الكلمة، تُقسَم الكلمات الطويلة إلى جذور وقطع ملحقة، ثم يُعاد ترتيبها وفق قواعد لغوية محددة لتكوين كلمات جديدة تبدو طبيعية. على مستوى الجملة، تُبادَل مقاطع بين الموجهات لإعادة تشكيل المعنى مع الحفاظ على القواعد النحوية. وعلى مستوى الفقرة، تُستبدَل كتل تصف مَن يتكلم، وما الذي يفعله، وفي أي سياق، مما يخلق إعدادات سردية غنية يمكنها إخفاء النية الخبيثة.

Figure 2. كيف يؤدي تطور وإعادة تركيب أجزاء من موجهات بلغات منخفضة الموارد إلى تمرير نوايا ضارة عبر دفاعات الذكاء الاصطناعي
Figure 2. كيف يؤدي تطور وإعادة تركيب أجزاء من موجهات بلغات منخفضة الموارد إلى تمرير نوايا ضارة عبر دفاعات الذكاء الاصطناعي

تقييم أي الموجهات تكسر القواعد حقًا

ليس كل موجه مُعاد كتابته يخدع النموذج فعليًا، لذا يحتاج MnMR-GenA لطريقة لقياس النجاح. يستعلم النظام نموذجًا مستهدفًا ويقيِّم شيئين معًا: مدى تقيد إجابة النموذج بالنية الضارة، وما إذا ظهرت أي علامة على الرفض في الرد، مثل عبارات الاعتذار. يتم دمج هذين الإشاريين في درجة واحدة توجه عملية التطور نحو موجهات أكثر فاعلية. تحافظ آلية اختيار ذكية على أفضل المرشحين بينما تترك مجالًا للمرشحين الأضعف الذين قد يحملون خواص مفيدة. كما تُعدَّل قوة الطفرات نفسها بمرور الوقت بقواعد على طراز التعزيز بحيث تستكشف الأجيال المبكرة متغيرات جريئة عديدة، بينما تُجري الأجيال اللاحقة تعديلات أكثر حذراً حول الموجهات الواعدة.

ماذا تكشف التجارب عن نقاط ضعف النماذج

تختبر المجموعة MnMR-GenA على نموذجين مفتوحي المصدر ونموذج تجاري مستخدم على نطاق واسع، مستخدمة مجموعتين عامتين من الأسئلة الخطرة. عبر ثلاث لغات منخفضة الموارد، تصل طريقتهم إلى معدلات نجاح في كسر الحماية تقارب 80 في المئة، أعلى بوضوح من عدة معايير قوية تعتمد أيضًا على التطور. وتفعل ذلك دون زيادة كبيرة في عدد الاستعلامات إلى النموذج، مما يظهر أن البحث فعال وقوي في آنٍ واحد. حتى عندما تُلف النماذج بطبقات دفاعية إضافية تبحث عن نصوص غير طبيعية أو تضيف ضوضاء عشوائية إلى المدخلات، يظل MnMR-GenA محافظًا على معدل نجاح نسبيًا عالٍ، لأن موجهاته تشبه اللغة العادية ولا تعتمد على خدع سطحية هشة.

ماذا يعني هذا لبناء ذكاء اصطناعي أكثر أمانًا

بالنسبة لغير المتخصص، الرسالة واضحة: يمكن أن تكون الأنظمة الحالية من السهل جدًا تضليلها في اللغات غير المخدومة مقارنةً بالإنجليزية، ويمكن لمولِّدات الموجهات الذكية أن تكشف هذه النقاط الضعيفة بصورة منهجية. يُقدَّم MnMR-GenA كأداة لاختبار الأمان بدلًا من إساءة الاستخدام في العالم الحقيقي، لكن نجاحه يبرز الحاجة العاجلة إلى تقوية الدفاعات عبر اللغات، وإيلاء اهتمام خاص لأنظمة بناء الكلمات المعقدة، وتطوير أدوات اكتشاف أفضل تواكب استراتيجيات الهجوم المتطورة.

الاستشهاد: Li, Y., Wang, G. & Wang, H. MnMR-GenA: a morphological recombination genetic algorithm for jailbreak attacks in low-resource language. Sci Rep 16, 16113 (2026). https://doi.org/10.1038/s41598-026-47434-5

الكلمات المفتاحية: نماذج اللغة الكبيرة, هجمات كسر الحماية, لغات منخفضة الموارد, أمان الذكاء الاصطناعي, الخوارزميات الجينية