Clear Sky Science · ar

الكشف الفعّال عن التسللات في مجموعة بيانات TON-IoT باستخدام نهج هجين لاختيار الميزات

· العودة إلى الفهرس

لماذا حماية الأجهزة الذكية مهمة

المليارات من الأدوات اليومية — من كاميرات المنازل إلى حسّاسات المصانع — تتواصل الآن عبر الإنترنت، مكونة ما نطلق عليه إنترنت الأشياء (IoT). ومع أن هذه الاتصال يجلب الراحة والكفاءة، فإنه يفتح أيضاً أبواباً جديدة للمخترقين. الورقة الملخّص هنا تتناول سؤالاً بسيطاً لكنه حرج: كيف يمكننا اكتشاف الهجمات في هذه الشبكات الواسعة من الأجهزة بشكل موثوق دون الاعتماد على برامج أمنية ثقيلة تستهلك طاقة كبيرة؟

Figure 1
Figure 1.

تحدي رصد الاختراقات الرقمية

لدراسة الهجمات على أنظمة إنترنت الأشياء، يعتمد الباحثون غالباً على مجموعات بيانات عامة وكبيرة تسجّل كيف تبدو حركة المرور الشبكية أثناء التشغيل الطبيعي والهجمات الإلكترونية على حد سواء. واحدة من أكثرها استخداماً هي مجموعة بيانات ToN-IoT، التي تلتقط حركة حقيقية من بيئة اختبار صناعية واقعية، بما في ذلك أنواع متعددة من الهجمات مثل حجب الخدمة، وبرمجيات الفدية، وكسر كلمات السر، والتجسّس بوساطة هجمات الرجل في الوسط. ومع ذلك، يبيّن المؤلفون أن لهذه المجموعة عيباً خفياً: كثيراً من الهجمات أطلقت من نطاقات عنوان IP وأرقام منافذ ثابتة. هذا يعني أن النموذج قد «يغش» بتعلُّم من هو المهاجم بدلاً من ماهية السلوك الخبيث. مثل هذه النماذج قد تحقق درجات مرتفعة في المختبر لكنها تفشل فشلاً ذريعاً عندما يأتِ المهاجم من عنوان جديد.

من بيانات ضخمة إلى رؤية مرنة للسلوك

تتضمن بيانات ToN-IoT الشبكية الأصلية 44 قياساً مختلفاً لكل اتصال، تتراوح من معلومات عناوين IP إلى تفاصيل المرور عبر الويب والمشفّر. التعامل مع جميعها يزيد زمن الحوسبة واحتياجات الذاكرة، وهو ما يمثل مشكلة لأجهزة البوابة والأطراف الحدّية محدودة الموارد. يستخدم المؤلفون أولاً فهمهم لآليات الهجوم لاستبعاد الميزات المتحيزة (مثل عناوين IP وأرقام المنافذ) أو غير المفيدة كثيراً في تمييز الهجمات. ويجادلون بأن معظم تهديدات إنترنت الأشياء تظهر في النهاية كأنماط غريبة في عدد الحزم والبايتات المرسلة والمستلمة، وبمدة الاتصالات — بغض النظر عمّن يتحدث مع مَن. هذه المرحلة الأولى تقلص مجموعة الميزات من 44 إلى سبعة إحصاءات رئيسية متعلّقة بالحجم والمدة.

Figure 2
Figure 2.

اختيار الميزات الهجين: ثلاث عدسات على نفس البيانات

بعد ذلك، يطبق الفريق ثلاث طرق "غلافية" مختلفة تعمل عبر تدريب نموذج مراراً أثناء إضافة أو إزالة أو إعادة تركيب الميزات لمعرفة أي مجموعة منها هي الأهم حقاً. يبني الاختيار المتقدم المجموعة تدريجياً من مجموعة فارغة، ويحتفظ بميزة فقط إذا حسّنت الدقة. تبدأ الإزالة الخلفية من جميع الميزات السبعة وتستبعد الميزات التي لا تضر الدقة عند إسقاطها. يستكشف خوارزم جيني مجموعات عديدة بالتوازي، متطوِّراً مجموعات أفضل على مدى أجيال. تُختبر الطرق الثلاث باستخدام مصنّف شجرة قرار بسيط، مع الدقة كمقياس. من خلال تقاطع النتائج، يتوصل المؤلفون إلى نواة مستقرة مكوّنة من خمس ميزات: مدة الاتصال، البايتات المرسلة، البايتات المستلمة، وعدد البايتات المقابلة على مستوى IP لكل من الإرسال والاستقبال. هذه المتغيرات الخمس تلتقط بفعالية الارتفاعات أو الاختلالات الشاذة في المرور التي تشير إلى أنواع متعددة من الهجمات.

نماذج خفيفة ما زالت تقدم أداءً قوياً

باستخدام مجموعة بيانات مقلّصة ومتمحورة حول السلوك، يقيم الباحثون مدى قدرة نماذج تعلم الآلة البسيطة على تمييز المرور الآمن عن الهجمات. وبالاعتماد على الميزات الخمس فقط، تصل شجرة القرار إلى دقة 98.6% في تصنيف "هجوم مقابل طبيعي" و97.2% عند التمييز بين فئات هجوم متعددة. يقدم نموذج الجيران الأقرب أداءً مشابهاً، وتمنح طرق التجميع الأكثر تعقيداً مثل الغابات العشوائية أو التعزيز التدرجي مكاسب طفيفة فقط على حساب زيادة الطلب على الحوسبة والذاكرة. والأهم أن المؤلفين يؤكدون عبر اختبارات إحصائية أن الميزات المختارة مفيدة فعلاً، وليست مجرد آثار جانبية لطريقة جمع البيانات. ويشيرون إلى أن هجمات الرجل في الوسط الدقيقة — المصممة للتماهي مع التدفقات الطبيعية — تظل أصعب في الاكتشاف، مما يوحي أن العمل المستقبلي قد يحتاج إشارات بروتوكولية أو توقيتية أغنى لهذه الحالات.

ما يعنيه ذلك لأمن العالم الحقيقي

لغير المتخصصين، الخلاصة الأساسية هي أنه لا تحتاج دائماً إلى نماذج ضخمة أو عشرات القياسات التقنية لحماية أنظمة إنترنت الأشياء. عبر استبعاد المؤشرات التي تنجح فقط في إعداد مختبري واحد، والتركيز بدلاً من ذلك على handful من سلوكيات المرور، يُظهر المؤلفون أن خوارزميات بسيطة وسريعة يمكنها الإمساك بمعظم الهجمات بدرجة عالية من الاعتمادية. نسخة المؤلفين من مجموعة بيانات ToN-IoT المؤلفة من خمس ميزات أسهل في المعالجة على الأجهزة المقيدة عند حافة الشبكة، مما يجعلها عملية لأجهزة التوجيه والبوابات والمحاور الصغيرة التي يجب أن تتفاعل مع التهديدات في الزمن الحقيقي. باختصار، تشير الدراسة إلى مسار نحو كشف تسللات أكثر موثوقية وقابلية للنشر للأجهزة الذكية اليومية التي تحاصرنا بشكل متزايد.

الاستشهاد: Dharini, N., Janani, V.S. & Katiravan, J. Efficient detection of intrusions in TON-IoT dataset using hybrid feature selection approach. Sci Rep 16, 7763 (2026). https://doi.org/10.1038/s41598-026-37834-y

الكلمات المفتاحية: أمن إنترنت الأشياء, كشف التسلل, تعلم الآلة, اختيار الميزات, حركة مرور الشبكة