Clear Sky Science · ar

هجوم دلالي انتقائي لتعزيز قابلية انتقال العينات العدائية

· العودة إلى الفهرس

لماذا خداع الآلات الذكية مهم

تعتمد أنظمة الذكاء الاصطناعي الحديثة المبنية على الشبكات العصبية العميقة الآن في رصد المشاة للسيارات ذاتية القيادة، والتعرف على الوجوه في الصور، ومساعدة الأطباء على قراءة الصور الطبية. ومع ذلك، لدى هذه الأنظمة نقطة ضعف مفاجئة: تغييرات صغيرة ومصممة بعناية في الصورة—لا يشعر بها الإنسان—يمكن أن تجعلها تقدم تنبؤات خاطئة فادحة. تتناول الدراسة في هذا البحث تلك الثغرة، موضحة طريقة جديدة لبناء صور "عدائية" قادرة على خداع نماذج مختلفة في آن واحد، ما يقدم إنذارًا أكثر وضوحًا بشأن أمان الذكاء الاصطناعي وأداة قوية لاختبار قدرة الأنظمة المستقبلية على التحمل.

كيف يخدع المهاجمون الشبكات العصبية اليوم

تعتمد معظم طرق الهجوم الحالية على دفع كل بكسل في الاتجاه الذي يزيد من خسارة التدريب الاعتيادية للنموذج. عندما يعرف المهاجمون كل شيء عن النموذج—بنيته ومعاملاته—تكون هذه الاستراتيجية "صندوق أبيض" فعالة جدًا. لكن في العالم الواقعي، نواجه عادة نموذجًا "صندوقًا أسود" نشرته شركة أو مستشفى، حيث تكون التفاصيل الداخلية مخفية. لمهاجمته، يجب صنع صور عدائية على نموذج بديل على أمل أن تخدع أيضًا النظام الخفي، وهي الخاصية المسماة القابلية للانتقال. الحيل القائمة على التدرج القياسية كثيرًا ما تتجاوز التخصيص للنموذج البديل: فهي تستغل خصوصيات حدود القرار لذلك النموذج وحده، فتتراجع فعاليتها بشكل حاد عند إرسال نفس الصور إلى بنى معمارية مختلفة أو إلى نماذج مجَهَّزة بتدريب دفاعي.

النظر إلى ما يركز عليه النموذج

ينطلق المؤلفون من ملاحظة بسيطة لكنها قوية: تميل الشبكات العصبية المختلفة المدربة على نفس مجموعة البيانات إلى "النظر" إلى أجزاء متشابهة من الصورة عند إصدار نفس التنبؤ. يمكن تصور هذا التركيز الداخلي كخريطة حرارية تبين أي البكسلات تسهم أكثر في القرار—نوع من خرائط انتباه الآلة. وحتى عندما تختلف البنى المعمارية، تبدو أنماط الانتباه هذه متشابهة بشكل لافت للمدخل والتسمية نفسها. يؤطر البحث هذا النمط المشترك كمستوى رسمي أطلقوا عليه خاصية الدلالة الانتباهية (ASP)، وهو وصف كمي لمدى دعم كل بكسل لفئة معينة. بدلًا من اعتبار خرائط الانتباه مجرد أداة تصوير، يحول المؤلفون ASP نفسه إلى كائن يمكن تحسينه مباشرة.

تدمير المعنى المشترك بدلاً من مطاردة التسميات
Figure 1
Figure 1.

بناءً على هذه الفكرة، يقدم البحث هجوم الدلالة الانتباهية (ASA). بدلاً من دفع الصورة لزيادة خسارة التصنيف الاعتيادية، يبحث ASA عن تغييرات صغيرة في البكسلات تشوه ASP على وجه التحديد. يهدف الهجوم إلى تقليل الانتباه المخصص للفئة الحقيقية مع زيادة الانتباه لفئة أخرى خاطئة. ولتجنُّب الإفراط في التخصيص لتسمية بديلة واحدة، غالبًا ما يختار ASA تلك الفئة الأخرى عشوائيًا في كل خطوة من خطوات التحسين، مجبرًا الاضطراب على تعطيل أنماط دليل أعمق بدلًا من مجرد تبديل التنبؤين الأعلى. تقنيًا، يحسب ASA خرائط الأهمية لكل بكسل باستخدام طريقة تسمى نشر الأهمية بالمستويات (Layer-wise Relevance Propagation)، ثم يعرّف دوال خسارة تقيس مدى تشابه أو اختلاف هذه الخرائط قبل وبعد التغيير. يؤدي تتبع تدرج هذه الخسارة المبنية على الانتباه بشكل تكراري إلى "اضطرابات انتقائية" تعيد تشكيل ما تعتبره نماذج متعددة مهمًا في الصورة.

قياس ومقارنة الضرر

لاختبار طريقتهم، يولد المؤلفون صورًا عدائية على نموذج معروف واحد ويقيّمونها على نحو اثني عشر نموذجًا آخر، بما في ذلك الشبكات الالتفافية التقليدية، والنماذج المقواة بالتدريب العدائي، والمحولات البصرية الحديثة. عبر تجارب واسعة مستندة إلى ImageNet، يحقق ASA معدلات نجاح هجوم أعلى باستمرار من مجموعة كبيرة من المنافسين الذين يعتمدون على تعديلات ذكية في التدرج، أو تحويلات الإدخال، أو التلاعب بالميزات الوسطية. كما يقترح البحث طريقة جديدة لقياس مدى "قوة" الهجوم، أطلقوا عليها تغيير ثقة التسمية (LCC). بدلًا من السؤال عما إذا كانت التسمية المتوقعة قد انقلبت فحسب، يقيس LCC مقدار انخفاض ثقة النموذج في الفئة الأصلية الصحيحة. يشير ارتفاع LCC إلى أن الصورة تضررت بعمق بطريقة مرجح أن تنتقل إلى نماذج غير مرئية، وتظهر عينات ASA قيم LCC أكبر بشكل ملحوظ من طرق المنافسين.

التعمق في آلية الهجوم
Figure 2
Figure 2.

تساعد المقارنات البصرية لخرائط الانتباه على تفسير سبب انتقال ASA جيدًا. في الهجمات التقليدية، تتحرك مناطق التركيز الساطعة داخل الشبكة قليلاً فقط مع تقدم التكرارات، حتى عندما يكون التنبؤ النهائي خاطئًا؛ تبقى فكرة النموذج الأساسية عن مكان الكائن سليمة، مما يحد من تعميم الاضطراب. أما تحت ASA، فتعيد تطبيقات الاضطراب الانتباهي المتكررة إعادة توصيل هذه الخرائط بشكل جذري: يتبخر الانتباه من الكائن الحقيقي وينتقل إلى مناطق الخلفية أو هياكل غير ذات صلة. يبدو أن هذا الترتيب الشامل للتركيز الداخلي يظهر في النماذج العادية والمحصنة على حد سواء، ويمكن تعزيزه أكثر بدمج ASA مع حيل تحسين موجودة مثل تغيير حجم الإدخال العشوائي أو توحيد نماذج مصدر متعددة.

ماذا يعني هذا لأجل ذكاء آمن أكثر

بعبارات بسيطة، يبين البحث أن أنظمة الرؤية اليوم تشترك في "حس معنوي" مشترك حول ما يهم في الصورة—وأن الضجيج المستهدف بعناية يمكن أن يخلخل ذلك المعنى المشترك عبر العديد من النماذج في آن واحد. من خلال مهاجمة الانتباه مباشرة بدلًا من درجات التسميات النهائية فحسب، تنتج ASA صورًا عدائية أصعب على الدفاعات الحالية أن تتجاهلها وأكثر موثوقية لاختبار الأنظمة الواقعية. بالنسبة للمدافعين، يؤكد ذلك أن حماية الذكاء الاصطناعي ستتطلب حماية ليس المخرجات فحسب بل أيضًا المسارات الداخلية للانتباه التي تقوم عليها فهم النموذج للعالم.

الاستشهاد: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability. Sci Rep 16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8

الكلمات المفتاحية: أمثلة عدائية, أمن الشبكات العصبية, خرائط الانتباه, هجمات الصندوق الأسود, تصنيف الصور