Clear Sky Science · ar

تصنيف برمجيات أندرويد الخبيثة بقلة العينات باستخدام تعلم نموذجي معزز بالكم وكشف الانجراف

· العودة إلى الفهرس

إيقاف التطبيقات الضارة قبل انتشارها

يحمل معظمنا حاسوبًا قويًا في جيوبه، وهذه الراحة تصاحبها منافسة خفية: فرق الأمان تحاول اكتشاف برمجيات أندرويد الخبيثة الجديدة بسرعة توازي سرعة المجرمين في اختراعها. الدفاعات التقليدية تحتاج آلاف التطبيقات المعروفة الخبيثة لتتعلم ما يجب حظره، وهذا بطيء جدًا عندما تظهر عائلات برمجيات خبيثة جديدة كل أسبوع. تقدم هذه الورقة كاشفًا أذكى يمكنه التعلم من عدد قليل من الأمثلة فقط، والمتابعة مع تطور الهجمات عبر الزمن، ومع ذلك يظل قادرًا على تفسير سبب وسم تطبيق معين — مقدّمًا مخططًا لحماية أكثر مرونة للهواتف اليومية.

لماذا يصعب رصد التهديدات الجديدة

يسيطر أندرويد الآن على سوق الهواتف العالمي، ما يجعله هدفًا مربحًا لمؤلفي البرمجيات الخبيثة الذين ينتجون مئات الآلاف من العينات الجديدة يوميًا. مجموعات البيانات الواقعية منحازة: عدد قليل من عائلات البرمجيات الخبيثة يحتوي على أعداد هائلة من التطبيقات، بينما العديد من العائلات الناشئة تمتلك أقل من عشرة عينات معروفة. بالإضافة إلى ذلك، يغير المهاجمون تكتيكاتهم باستمرار، مما يسبب انجرافًا في “شكل” التوزيع الإحصائي للبيانات على مدى أشهر وسنوات. أنظمة التعلم الآلي التقليدية التي تُدرَب مرة واحدة على ميزات تقنية عالية الأبعاد تكافح في هذا الإطار: فهي تحتاج إلى أمثلة مُعلّمة كثيرة لكل عائلة، وتصبح هشة عندما يتغير مشهد التهديدات، وإعادة تدريبها من الصفر مكلفة وبطيئة.

التعلم من عدد قليل من الأمثلة الخبيثة

يقترح المؤلفون إطارًا يعامل كشف البرمجيات الخبيثة بشكل أقرب إلى تعلم «التشابه» من حفظ الوسوم. بعد تقليص الميزات الخام لأندرويد بنسبة نحو 95–99% باستخدام تقنية تُسمى CatBoost، تغذي النظام هذه الأوصاف المضغوطة إلى شبكة «نموذجية» (prototypical). أثناء التدريب، تحل الشبكة مرارًا وتكرارًا مهام تدريب صغيرة حيث يجب أن تميز بين بضع فئات مستخدمة فقط عدد قليل من الأمثلة لكل منها. مع الوقت، تتعلم خريطة داخلية حيث تنتهي تطبيقات العائلة نفسها قريبة من بعضها، وتشكل العائلات المختلفة مجموعات منفصلة جيدًا. عند النشر، يحتاج محللو الأمن إلى حوالي خمس عينات مؤكدة لعائلة برمجيات خبيثة جديدة: يجمع النظام مواقعها لتشكيل نموذج أولي ويصنّف التطبيقات الجديدة بفحص أقرب نموذج أولي إليها، محولًا مشكلة تتطلب الكثير من البيانات إلى مشكلة بقلة عينات.

Figure 1
Figure 1.

إضافة دقة كَمّية ومراقبة التغير

لاستخلاص مزيد من البصيرة من الميزات المضغوطة بالفعل، يجرب الإطار طبقة تصنيف صغيرة مستوحاة من الكم. دائرة بأربعة كيوبتات تُشفّر متجهًا صغيرًا من الميزات إلى حالة كمية، تُجَزِّئ الكيوبتات (entangles) ثم تُقاس؛ ثم تحول طبقة كلاسيكية بسيطة تلك القياسات إلى قرار. في المحاكاة، تضيف هذه الخطوة الهجينة زيادة متواضعة لكن دالّة إحصائيًا في الدقة، مما يلمّح إلى أن الأجهزة الكمّية قد تساعد يومًا ما في التقاط العلاقات الدقيقة بين السلوكيات داخل التطبيق. في الوقت نفسه، يراقب النظام صراحة مدى أدائه على شرائح زمنية مأخوذة من مجموعة بيانات أندرويد معنونة زمنيًا. من خلال التدريب على شرائح أقدم والاختبار على شرائح لاحقة، يمكنه قياس مقدار تآكل الدقة مع انجراف سلوك البرمجيات الخبيثة والتنبيه عندما يصبح إعادة التدريب ضروريًا.

اختبار المنهج

يقيم الباحثون إطارهم على مجموعتي بيانات عامتين كبيرتين. الأولى، CCCS-CIC-AndMal-2020، تحتوي على مئات الآلاف من تطبيقات أندرويد عبر عائلات برمجيات خبيثة وبرامج حميدة، كل منها موصوف بأكثر من 9000 ميزة كود وسلوك. الثانية، KronoDroid، تقدم ميزات أقل لكنها تتضمن طوابع زمنية من 2008 إلى 2020، مما يجعلها مثالية لتتبع التغير عبر الزمن. بعد اختيار الميزات، يستخدم النظام فقط 51 و29 ميزة على هاتين المجموعتين على التوالي، ومع ذلك يصل إلى نحو 99–100% دقة، مع معدلات إنذار كاذب وفقدان منخفضة جدًا. كما يظهر أنه يمكنه تصنيف عائلات برمجيات خبيثة مغلقة تمامًا عن التدريب مع هبوط طفيف في الأداء، وأن دقته تتدهور بشكل طفيف فقط عبر فترات زمنية محاكاة عندما يُسمح بإعادة تدريب دورية.

Figure 2
Figure 2.

نظرة داخل الصندوق الأسود

بعيدًا عن الدرجات الخام، يستخدم المؤلفون أدوات تفسير حديثة لرؤية أي السلوكيات تؤثر أقوى على القرارات. يجدون أن الأفعال منخفضة المستوى على الملفات — مثل كيفية تعامل التطبيقات مع مؤشرات الملفات أو إنشاء وإعادة تسمية الدلائل — هي إشارات ذات أهمية خاصة للدافع الخبيث. من خلال إبراز، لكل تطبيق مُعلَم، أي السلوكيات دفعت التنبؤ نحو «برمجية خبيثة» أو «حميدة»، يمنح النظام المحللين البشر وسيلة لتدقيق والثقة في أحكامه، وفهم أين لا تزال العينات المتخفية تمرر. يكشف هذا التحليل أيضًا حالات حافة: على سبيل المثال، بعض مديري الملفات الشرعيين يشبهون البرمجيات الخبيثة لأنهم يؤدون عمليات ملفات مكثفة.

ما يعنيه هذا لأمن المستخدمين اليومي

بعبارات بسيطة، تظهر هذه العمل أنه من الممكن بناء كاشف برمجيات أندرويد الخبيثة يتعلم «إحساسًا» عامًا بالسلوك الضار، يمكن تحديثه بسرعة بخمس عينات مؤكدة فقط لتهديد جديد، ويظل موثوقًا حتى عندما يغير المهاجمون تدريجيًا حيلهم. بينما الجزء الكمّي لا يزال استكشافيًا والاختبارات تعتمد على مجموعات بيانات مُنقّحة، يشير الإطار العام نحو أدوات حماية للهواتف في المستقبل تكون أخف وزناً، أسرع في التكيف، وأكثر شفافية في تفسير منطقها — مما يساعد المدافعين على مواكبة مشهد التهديدات المتطور بسرعة.

الاستشهاد: Tawfik, M., Tarazi, H., Dalalah, A. et al. Few-shot android malware classification with quantum-enhanced prototypical learning and drift detection. Sci Rep 16, 10744 (2026). https://doi.org/10.1038/s41598-026-45738-0

الكلمات المفتاحية: برمجيات أندرويد الخبيثة, التعلّم بقلة العينات, تعلم آلي كمي, انجراف المفهوم, الأمن السيبراني