Clear Sky Science · ar

تحسين كشف التهديدات المستمرة المتقدمة عبر تعلم الميزات المدفوع بالمحوِّلات وتوليد بيانات تركيبية

· العودة إلى الفهرس

لماذا تهمّ الهجمات الإلكترونية الخفية

تعتمد المنظمات الحديثة على شبكات حاسوبية تنبض بنشاط مستمر، من التصفّح إلى الخدمات الحكومية الحيوية. لكن في هذا الضجيج الرقمي تختبئ بعض أخطر التهديدات: التهديدات المستمرة المتقدمة (APTs). هذه الهجمات الطويلة المدى والمتخفّية غالباً ما تكون مدعومة بمجموعات ماهرة ويمكن أن تتوغل داخل الأنظمة بهدوء لأشهر. تقدّم الورقة طريقة جديدة تُسمّى ET‑SDG تستفيد من التقدّم الأخير في الذكاء الاصطناعي لتمشيط تيارات هائلة من حركة الشبكة، وتعلّم كيف يبدو السلوك المشبوه حقاً، واكتشاف نشاط APT النادر لكن الخطير بمزيد من الاعتمادية مقارنة بالأدوات السابقة.

تحدّي إيجاد إبرة في كومة قش رقمية

تختلف حملات APT عن البرامج الخبيثة اليومية لأنها بطيئة ومتكيّفة ومستهدفة بعناية. تستغل ثغرات برمجية غير معروفة وتخبّئ اتصالاتها داخل حركة تبدو عادية. تعتمد أنظمة كشف التسلل التقليدية على قواعد ثابتة أو توقيعات معروفة، ما يعني أن الهجمات الجديدة أو المعدلة قد تنفلت. اتجهت الأبحاث الحديثة إلى التعلم الآلي للصيد وراء أنماط دقيقة في «تدفّقات» الشبكة — ملخصات من تحدث مع من، ولأي مدة، وكمية البيانات المتبادلة. لكن تبقى مشكلتان: الأنماط داخل هذه التدفقَات معقّدة، والبيانات الواقعية غير متوازنة للغاية، بوجود الكثير من الحركة الطبيعية مقابل حالات APT المؤكدة القليلة. هذه اللاتوازُن قد يجعل نظم الذكاء الاصطناعي متفوقة في التعرف على السلوك الطبيعي بينما تتجاهل بهدوء الأحداث النادرة التي تهمّهنا أكثر.

Figure 1
Figure 1.

طريقة أذكى لقراءة تدفّقات الشبكة

يتعامل إطار ET‑SDG مع المشكلة الأولى — فهم الحركة المعقّدة — بتقسيم المهمة إلى مراحل. يبدأ بعشرات الوصافات العددية لكل تدفّق شبكي. يعمل أسلوب يعرف باسم ExtraTrees كمراجع سريع وخشن: يقارن العديد من أشجار القرار الممكنة ليحسم أي الميزات تساعد أكثر في تمييز حركة الهجوم من الحركة العادية، ويستبعد الباقي. تُنقل البيانات المقلّصة بعد ذلك إلى محوِّل (Transformer)، وهي عائلة نماذج معروفة بتغذيتها للأدوات اللغوية الحديثة. بدلاً من قراءة كلمات في جملة، «يقرأ» المحوِّل هنا ميزات الحركة، مستفيداً من آلية الانتباه لتعلّم كيف تؤثر خصائص الاتصال المختلفة على بعضها البعض. النتيجة هي بصمة مضغوطة وواعية للسياق لكل زوج من الأجهزة المتواصلة، غنية بما يكفي لالتقاط سلوك حملات APT متعددة الخطوات.

إنشاء أمثلة واقعية لهجمات نادرة

العقبة الكبرى الثانية هي قلة حالات APT المؤكدة مقارنة بجبال من الحركة الحميدة. إن مجرد نسخ سجلات الهجوم النادرة، كما في تقنيات الإفراط البسيطة، يخاطر بتعليم النموذج الحفظ بدلاً من التعميم. يتعامل ET‑SDG مع هذا عبر نموذج توليدي مشروط للتوليف (CGMS)، مبني على نوع من الشبكات العصبية يعرف بشبكة الخصومة التوليدية المشروطة. يتعلّم هذا المولد إنشاء نقاط بيانات تركيبية جديدة تشبه إحصائياً سلوك APT المعروف، بينما تحاول شبكة أخرى التفريق بين الحقيقي والمزيّف. بتدريبهما معاً، ينتج النظام أمثلة إضافية ومتنوّعة لحركة الهجوم، ولكن فقط ضمن بيانات التدريب لتجنّب تلويث التقييم. ثم تركز طبقة قائمة على الانتباه على أكثر أجزاء هذه التمثيلات إفادة قبل أن يقرّر المصنّف النهائي ما إذا كان زوج عناوين الـIP على الأرجح حميداً أم تحت هجوم.

Figure 2
Figure 2.

الاختبار على مجموعات بيانات واقعية وصعبة

لفحص ما إذا كان هذا التصميم يُثمر، قيّم المؤلفون ET‑SDG على مجموعة بيانات مدمجة تضم تسجيلات حقيقية لبرمجيات خبيثة من نوع APT وحركة شبكية حكومية، بالإضافة إلى معيار علني كبير لكشف التسلل معروف بشدّة اختلال الفئات فيه. قارنوا نظامهم بمجموعة من البدائل، من نماذج التعلم العميق الأبسط التي تعالج التدفقات كسلاسل زمنية، إلى مناهج قائمة على الرسوم تبرز العلاقات بين الأجهزة. عبر مقاييس متعددة — بما فيها الدقة، المعايرة، الاستدعاء، ونقطة F1 — كانت ET‑SDG مساوية أو متفوّقة على معظم المتنافسين بشكل ثابت، غالباً بتحسّن يتراوح من نقطة إلى أربع نقاط مئوية. والأهم أنها حقّقت ذلك مع إبقاء كل من الهجمات الفائتة والإنذارات الكاذبة منخفضة، وبقي أداؤها مستقراً عندما أعيد خلط البيانات في اختبارات التحقق المتقاطع المتكررة.

ماذا يعني هذا للأمن اليومي

لغير المتخصص، الخلاصة أن ET‑SDG يقدم طريقة أكثر دقّة لمراقبة حركة الشبكة. من خلال تعلّم أي التفاصيل مهمة أولاً، ثم تفسيرها في سياقها، وأخيراً ابتكار أمثلة واقعية إضافية للهجمات النادرة، يصبح النظام أفضل في تمييز سلوك APT المتخفّي من الدردشة الرقمية اليومية. ومع أن النهج يتطلب موارد حسابية أكثر من الأساليب القديمة وقد اختبر حتى الآن أساساً في تجارب غير متصلة بالوقت الحقيقي، إلا أنه يُظهر أن الجمع بين التعرف المتقدّم على الأنماط وتوليد بيانات تركيبية مدروسة يمكن أن يعزّز بشكل ملحوظ أنظمة الإنذار المبكر. عملياً، قد يساعد هذا فرق الأمن على اكتشاف الاختراقات الخطيرة بسرعة أكبر، والتركيز على إنذارات ذات جودة أعلى، وحماية الخدمات الحيوية بشكل أفضل من الاختراقات طويلة الأمد.

الاستشهاد: Danh, L.T.K., Xuan, C.D. & Van, N.N. Advancing APT detection through transformer-driven feature learning and synthetic data generation. Sci Rep 16, 11772 (2026). https://doi.org/10.1038/s41598-026-41317-5

الكلمات المفتاحية: التهديدات المستمرة المتقدمة, كشف التسلل الشبكي, نماذج المحوِّل, توليد بيانات تركيبية, الذكاء الاصطناعي في الأمن السيبراني