Clear Sky Science · ar

إطار ذكاء حاسوبي هجين قابل للتوسع مع تحسين مستوحى من الطبيعة لاستدلال عناوين URL الضارة عالية البعد

· العودة إلى الفهرس

لماذا يهم رصد الروابط الخبيثة

الروابط التي ننقرها يومياً قد تفتح بهدوء باب الاحتيال، وسرقة البيانات، وعدوى الحواسيب. يبتكر المجرمون الإلكترونيون باستمرار حيلًا جديدة، لذلك غالبًا ما تفشل قوائم الحظر البسيطة والمرشحات المعتمدة على قواعد في اكتشاف الهجمات الحديثة. تستكشف هذه الدراسة طريقة أذكى لتمييز المواقع الآمنة عن الضارة عبر دمج عدة أنواع من النماذج الرياضية مع استراتيجيات بحث مستوحاة من الطبيعة، بهدف الحفاظ على دقة الاكتشاف وقابليته للتفسير لفرق الأمن.

من القواعد البسيطة إلى دفاعات أكثر ذكاءً

تعتمد الدفاعات التقليدية ضد المواقع الخبيثة على التحقق مما إذا كان الرابط موجودًا في قائمة سوداء أو يتطابق مع أنماط معروفة في نصه أو محتوى الصفحة. يمكن لهذه الأساليب إيقاف بعض التهديدات، لكنها تفشل بسهولة عندما يخفي المهاجمون العناوين أو يغيرونها كثيرًا أو يقلدون مواقع موثوقة. يرى البحث أن الطبيعة سريعة التغير للجريمة الإلكترونية تتطلب أدوات مرنة قادرة على التعلم من البيانات، واختبار موثوقية قراراتها، وكشف أي تفاصيل في عنوان الويب أو سلوكه الشبكي هي الأكثر دلالة.

Figure 1. نظام ذكي هجين يصفّي روابط الويب ليفصل المواقع الآمنة عن الضارة باستخدام أنماط رئيسية في عناوين URL وحركة المرور.
Figure 1. نظام ذكي هجين يصفّي روابط الويب ليفصل المواقع الآمنة عن الضارة باستخدام أنماط رئيسية في عناوين URL وحركة المرور.

كيف يعمل إطار الاكتشاف الجديد

يبني الباحثون إطار اكتشاف «هجين» يمزج بين ثلاثة مصنفات مختلفة مع طرق ضبط مستوحاة من الطبيعة. اثنان من المصنفات، المسميان التحليل التمييزي الخطي والتربيعي، جيدان في رسم حدود واضحة بين المرور الآمن وغير الآمن باستخدام أشكال رياضية بسيطة. الثالث، المسمى CatBoost، هو طريقة قوية قائمة على الأشجار يمكنها التعامل مع أنواع مختلطة من المعلومات، مثل أرقام تصف طول الـ URL، وعدد الأحرف غير الاعتيادية في العنوان، أو كيف يتصرف ترافيك الشبكة الخاص به. بدلًا من الاعتماد على الإعدادات الافتراضية، تستخدم الدراسة استراتيجيتين بحثيتين مستمدتين من سلوك أم حريصة وطائر جارح لاستكشاف العديد من إعدادات المعاملات والاحتفاظ بتلك التي تعمل بأفضل شكل.

ما الذي تتعلمه النماذج من دلائل الويب والشبكة

يستخدم الفريق مجموعة بيانات من العالم الحقيقي تضم 1,781 عنوان موقع، تشمل كلًا من العناوين غير الضارة والضارة، كل منها موصوف بتفاصيل مأخوذة من سجلات التسجيل، واستجابات الخوادم، ونشاط الشبكة. يفحصون أولاً أي أجزاء المعلومات تساعد فعلاً في فصل المواقع الجيدة عن السيئة. تظهر الاختبارات الإحصائية أن بعض السمات البسيطة تبرز: عدد الرموز الخاصة في الرابط، طول الـ URL، إعداد ترميز النص، عدد مرات الحاجة للبحث عن عنوان الموقع، وعدد الأجهزة البعيدة التي يتم الاتصال بها. من خلال التركيز على هذه الدلائل الرئيسية، يتجنب الإطار الضياع في الضوضاء ويجعل قراراته أسهل في التفسير.

البحث المستوحى من الطبيعة يصقل الأدوات

جوهر الدراسة يكمن في استخدام خوارزميات بحث مستوحاة من الطبيعة لضبط المصنفات الثلاثة بدقة. يحاكي أحد المحسّنات مراحل التعليم والنصح والتنشئة، مشجعًا «عائلة» رقمية من الحلول المحتملة على الاستكشاف على نطاق واسع ثم تحسين أفضل الخيارات. الآخر ينسخ طريقة اكتشاف وصيد سمك البحر (النسّارية) لفريسته، أولاً بمسح واسع ثم التركيز حول المناطق الواعدة. معًا، تضبط هذه الطرق إعدادات داخلية مثل مدى تعقيد أشجار القرار أو مدى قوة تسوية الحدود بين الأصناف. تُظهر التجارب مع التحقق المتقاطع المتكرر أن كل مصنف يستفيد من هذا الضبط، لكن نموذج CatBoost المحسن، المسمى CAMA، يقدّم الأداء الأفضل.

Figure 2. عرض خطوة بخطوة لكيفية تفكيك عنوان URL واحد إلى ميزات، ومعالجته عبر نماذج متعددة الطبقات ومحسّنات مستوحاة من الطبيعة للوصول إلى قرار آمن أو غير آمن.
Figure 2. عرض خطوة بخطوة لكيفية تفكيك عنوان URL واحد إلى ميزات، ومعالجته عبر نماذج متعددة الطبقات ومحسّنات مستوحاة من الطبيعة للوصول إلى قرار آمن أو غير آمن.

نتائج أقوى ورؤى أوضح

عبر العديد من الاختبارات، تفوقت النماذج الهجينة على النسخ الأبسط في الدقة، والتحديد، والاستدعاء، والمؤشرات المتعلقة بموازنة التهديدات الفائتة مقابل الإنذارات الكاذبة. يصنّف النموذج الأفضل بشكل صحيح حوالي 96 بالمئة من المواقع، مع الحفاظ أيضًا على عدد منخفض من المواقع الآمنة المحجوبة بالخطأ. ولمنع تحول النظام إلى صندوق أسود غامض، يطبق المؤلفون طريقة تمنح كل توقع مجموعة من «الاعتمادات» توضح مدى إسهام كل ميزة في دفع القرار نحو آمن أو غير آمن. يكشف هذا، على سبيل المثال، أن كثرة الرموز الغريبة وسلوك الاستعلام عن العناوين غير الاعتيادي هما تحذيران قويان من الخطر.

ماذا يعني هذا لسلامة الويب اليومية

لغير المتخصصين، الرسالة هي أن حفنة من الدلائل المختارة جيدًا حول عناوين الويب وحركة مرورها، محققة بواسطة عدة نماذج متعاونة ومضبوطة بأفكار مستعارة من الطبيعة، يمكنها تحديد المواقع الخطرة بموثوقية عالية. وبينما تستخدم الدراسة مجموعة بيانات متواضعة الحجم وتحتاج بعد إلى اختبارات على تدفقات أكبر ومتغيرة من الحركة على الإنترنت، فإنها توضح أن الجمع بين التنوع، والبحث الدقيق، والتفسيرات الواضحة يمكن أن يجعل الدفاعات الآلية أكثر حدة وموثوقية.

الاستشهاد: Liu, H. A scalable hybrid computational intelligence framework with bio inspired optimization for high dimensional malicious URL inference. Sci Rep 16, 14842 (2026). https://doi.org/10.1038/s41598-026-44851-4

الكلمات المفتاحية: كشف عناوين URL الضارة, الأمن السيبراني, التعلم الآلي, التحسين المستوحى من الطبيعة, تحليل حركة الويب