Clear Sky Science · ar

مراجعة كشف التسلل بالتعلّم الآلي المُشرف وتقييم متعدد المعايير

· العودة إلى الفهرس

لماذا حماية الأبواب الرقمية مهمة

في كل مرة نتصفح فيها الويب، نرسل رسالة، أو نشاهد فيلمًا عبر البثّ، تعمل أنظمة أمنية غير مرئية خلف الكواليس لإبقاء المخترقين بعيدًا. تقوم أنظمة كشف التسلل هذه بفرز محيطات من حركة الشبكة للبحث عن علامات الهجمات. لكن هناك طرقًا عديدة لبناء مثل هذه الكواشف، وكل طريقة تأتي بمقايضة بين السرعة والدقّة والموثوقية. يطرح هذا الورق سؤالًا عمليًا: مع كل هذه الخيارات، أي طرق كشف التسلل هي الأفضل فعليًا، وكيف يمكن مقارنتها بشكل عادل؟

Figure 1
Figure 1.

كيف تتعلّم الحواسيب اكتشاف المتسللين

يعتمد كشف التسلل الحديث غالبًا على التعلّم الآلي المُشرف، حيث تُدرّب الخوارزميات على أمثلة سابقة للاتصالات «العادية» و«الهجومية». بعد التدريب، تحاول هذه النماذج تصنيف الحركة الجديدة على أنها آمنة أو مريبة. يشرح المقال عائلات الخوارزميات الشائعة لهذه المهمة، مثل k‑الأقرب، أشجار القرار، الغابات العشوائية، آلات الدعم المتجهية، الشبكات العصبية، ونايف بايز. لكل منها نقاط قوة وضعف: بعضها يتعامل جيدًا مع عدد هائل من الميزات، وبعضها يتفوق مع بيانات فوضوية أو غير متوازنة، وبعضها سريع لكنه أقل دقة. تعتمد الأنظمة الواقعية أيضًا بشدّة على خطوات داعمة مثل تنظيف البيانات، ترميز الحقول النصية إلى أرقام، تطبيع المقاييس، واختيار الميزات الأكثر إفادة.

لماذا مقارنة الكواشف أصعب مما تبدو

قد يبدو من النظرة الأولى أن اختيار «أفضل» كاشف تسلل بسيط مثل اختيار من لديه أعلى دقّة. يوضّح المؤلفون لماذا هذا مضلل. عادةً ما تكون مجموعات بيانات التسلل غير متوازنة للغاية، بوجود حركة طبيعية أكثر بكثير من الهجمات، لذا يمكن للدقّة أن تخفي نقاط ضعف خطيرة. توجد مقاييس أخرى كثيرة—مثل الدقّة (Precision)، الاستدعاء (Recall)، معدل الإنذار الكاذب، مقياس F، والمزيد—إلى جانب اعتبارات عملية جدًّا مثل زمن التدريب وسرعة قدرة النموذج على التصنيف في وضع حيّ. تحسين مقياس واحد قد يُسوء آخر؛ على سبيل المثال، استخراج زيادة طفيفة في الدقّة قد يجعل النموذج بطيئًا جدًا للاستخدام في الوقت الحقيقي. فوق ذلك، تستخدم الدراسات في الأدبيات مجموعات بيانات مختلفة، ومزيج هجمات مختلف، وخطوط معالجة مسبقة مختلفة، مما يصعّب المقارنة المباشرة وجهاً لوجه.

ورقة نتائج توازن احتياجات متعددة دفعة واحدة

لمعالجة ذلك، يقترح الورق «ورقة نتائج» منظمة بناءً على طريقة لاتخاذ القرار تسمى TOPSIS. بدلاً من التركيز على رقم واحد، تتعامل TOPSIS مع كل خوارزمية كبديل وكل مقياس أداء كمعيار. بعض المعايير هي «منافع» (كلما زاد كان أفضل، مثل الاستدعاء)، بينما البعض الآخر «تكاليف» (كلما قلّ كان أفضل، مثل زمن الحوسبة). يجمع المؤلفون هذه المعايير في ثلاثة اهتمامات واسعة: كيف يتصرف النموذج على بيانات التدريب (انحياز النموذج)، مدى جودة توقعه للبيانات الجديدة (انحياز التنبؤ)، وكم من الوقت يستهلك. ثم يعينون أنماط أوزان مختلفة لتعكس تفضيلات المقيم—على سبيل المثال، من يهتم أكثر باكتشاف الهجمات، أو من يهتم بالسرعة، أو من يسعى إلى توازن. باستخدام ثلاث مجموعات بيانات معروفة (KDD، NSL‑KDD، وCICIDS2017)، يبنون جدول نتائج كبيرًا، يطبعون الأرقام ليجعلوها قابلة للمقارنة، يطبقون الأوزان المختارة، ويحسبون مدى قرب كل خوارزمية من كاشف «الأفضل» المثالي و«الأسوأ» المثالي.

Figure 2
Figure 2.

ما تكشفه الترتيبات عن الأساليب الشائعة

عبر أنماط الأوزان المختلفة وكل المجموعات الثلاث من البيانات، يظهر نمط واضح. تميل الأساليب القائمة على الأشجار—وخاصة Random Tree، أشجار القرار C4.5، وRandom Forest—إلى التربع مرارًا في أعلى الترتيب أو بجانبه. فهي تجمع بين درجات كشف قوية وأزمنة تدريب واختبار معقولة، وتبقى تنافسية حتى عندما تتغير تفضيلات المقيم. بالمقابل، يَحتل نهج نايف بايز مراكز دنيا باستمرار، خصوصًا على مجموعات البيانات الأكثر تحديًا مثل NSL‑KDD وCICIDS2017. افتراضه البسيط بأن الميزات تتصرف بشكل مستقل لا يصمد أمام تعقيد حركة الشبكة، ما يؤدي إلى ضعف في التعامل مع أنماط الهجوم الدقيقة وعالية الأبعاد. تُظهر الدراسة أيضًا أنه بينما يمكن لتغيير أهمية المعايير أن يعيد ترتيب منتصف القائمة، يبقى الأفضل والأسوأ مستقراً إلى حد كبير.

ما معنى هذا لتأمين الشبكات

بالنسبة لغير المتخصصين، الخلاصة أنه لا يوجد كاشف تسلل «سحري» واحد، لكن يمكننا مقارنة الخيارات بطريقة منظمة وشفافة. بمعاملة اختيار النموذج كعملية قرار متعدد المعايير—بدلًا من منافسة على الدقّة الخام—يبيّن المؤلفون أن عائلات معينة من الخوارزميات، وبالأخص المعتمدة على الأشجار، تمثل خيارات قوية وموثوقة عبر ظروف كثيرة، في حين أن أخرى تشكل مخاطرة. يعمل إطارهم القائم على TOPSIS كنظام تصنيف قابل لإعادة الاستخدام: مع ظهور مجموعات بيانات وخوارزميات جديدة، يمكن توصيلها بنفس العملية لتبيان أي الأدوات تقدم أفضل توازن بين اكتشاف الهجمات بسرعة، والحدّ من الإنذارات الكاذبة، والبقاء عمليًا من ناحية الحوسبة.

الاستشهاد: Abu-Shareha, A.A., Abualhaj, M.M., Hussein, A. et al. Supervised machine learning intrusion detection review and multi-criteria evaluation. Sci Rep 16, 14525 (2026). https://doi.org/10.1038/s41598-026-44773-1

الكلمات المفتاحية: كشف التسلل, أمن التعلّم الآلي, هجمات الشبكات, تقييم الخوارزميات, اتخاذ القرار متعدد المعايير