Clear Sky Science · ar
هجينة BERT‑spaCy لمعالجة اللغة الطبيعية وCTI تكيفي مع سلسلة كتل محسّنة لاستخراج مؤشرات الاختراق وتوقع التهديد
لماذا تهم الدفاعات السيبرانية الأذكى
تعتمد الحياة اليومية الآن على الأنظمة الرقمية — من سجلات المستشفيات والخدمات المصرفية عبر الإنترنت إلى المنازل الذكية والروبوتات الصناعية. ومع ذلك، تزداد الهجمات الإلكترونية بسرعة وبتعقيد يفوق قدرة العديد من الدفاعات التقليدية. تعرض هذه الورقة نهجاً متقدماً وعملياً في معلومات تهديدات السايبر يهدف إلى اكتشاف الهجمات مبكراً، والتعلم تلقائياً من الحوادث الجديدة، وتمكين المؤسسات من مشاركة علامات التحذير بأمان دون الخوف من العبث بها.

تحويل الأدلة المبعثرة إلى علامات تحذير واضحة
تترك الهجمات الحديثة آثاراً متناثرة عبر رسائل البريد الإلكتروني، وسجلات الأمان، ومنشورات وسائل التواصل، والتقارير التقنية. تُعرف هذه الآثار بمؤشرات الاختراق، وتشمل عناوين ويب مشبوهة، وأرقام عناوين IP، وأسماء برمجيات خبيثة، وبصمات ملفات. بنى المؤلفون محرك تحليل نصي هجين يجمع ثلاث تقنيات: أنماط مصاغة يدوياً للعناصر ذات البنية العالية، وأداة لغوية سريعة (spaCy) للتعامل مع النص العام، ونموذج تعلم عميق قوي (BERT) لفهم السياق. تعمل هذه الأدوات معاً لاستخراج أدلة تهديد مفيدة من الكتابات غير المهيكلة بدقة تقارب 95%، حتى عندما تكون اللغة ضوضائية أو غير رسمية.
تعليم الآلات التعرف على الهجمات والتكيف معها
لا تكفي الأدلة المستخرجة وحدها؛ يجب على النظام أن يقرر ما إذا كان الحدث حميداً أم خطيراً. لتحقيق ذلك، يستخدم الإطار مجموعة من نماذج التعلم الآلي، بما في ذلك BERT، وشبكة تكرارية (LSTM)، وطريقة احتمالية أبسط. يجلب كل نموذج نقاط قوة مختلفة — فهم عميق للسياق، استيعاب التسلسلات، أو متانة عند العينات الصغيرة — وتُجمع آراؤها في تصويت موزون بحسب الثقة. صُمم النظام ليستمر في التعلم: عند وصول أمثلة معنونة جديدة، يحدث معاييره الداخلية دون البدء من الصفر. خلال سنة من التشغيل المحاكاة، رفع هذا النهج التكيفي دقة الكشف من 75% إلى 93% وقلّل الإنذارات الكاذبة، خصوصاً في بيانات منحازة حيث تكون الهجمات الحقيقية نادرة.
تثبيت الثقة بسجل لا يتغير
مشكلة مستمرة في الدفاع السيبراني هي الثقة: قد تتردد المؤسسات في مشاركة معلومات التهديد إذا خشيت أن تُعدّل أو تُساء استخدامها أو يُعاد الطعن فيها لاحقاً. لمواجهة ذلك، يضيف الإطار دفتر قيود خفيف مستوحى من سلسلة الكتل. يُختم كل تقرير معالج — مؤشرات الاختراق المستخرجة، حكم النظام، ووقت الملاحظة — في كتلة تشفيرية مرتبطة بالسابقة، مُنشِئة أثر تدقيق يصعب إعادة كتابته صامتاً. في الاختبارات، يُكتشف العبث المتعمد في السلسلة بشكل موثوق. وبما أن التصميم مبسّط ويعمل على عقدة واحدة، فإنه يضيف بضع ميليثوان لكل إدخال فقط، محافظاً على سرعة النظام كافية لمراكز عمليات الأمان المزدحمة.

اختبار الموثوقية عبر عوالم رقمية مختلفة
غالباً ما تؤدي الدفاعات السيبرانية أداءً جيداً على مجموعة بيانات واحدة لكنها تتعثر عندما يتغير الوسط. لذلك يختبر المؤلفون نظامهم على مجموعتين مستخدمتين على نطاق واسع من حركة مرور الشبكة، تختلفان في أنواع وأنماط الهجوم. ويقدّمون «مؤشر الصلابة عبر المجموعات» لقياس مدى اتساق أداء النموذج عند نقله بين مجموعات بيانات. يسجل المكوّن المستند إلى BERT نتائج شبه مثالية على هذه المقياس، متفوقاً قليلاً على LSTM ومتقدماً بوضوح على الطرق التقليدية. تُظهر الفحوصات الإحصائية التفصيلية، بما في ذلك محاكاة واسعة وتحليل حجم الأثر، أن هذه المكاسب من غير المرجح أن تكون نتيجة صدفة وتبقى مستقرة تحت ظروف ضوضائية وغير متوازنة.
ماذا يعني هذا للأمن اليومي
ببساطة، يوضح هذا العمل كيف يمكن تحويل التقارير البشرية المبعثرة وآثار الشبكة الخام إلى نظام إنذار مبكر حي وموثوق. عبر الجمع بين فهم لغوي متقدم، وتعلم تكيفي، وسجل مقاوم للعبث، يكتشف الإطار التهديدات بدقة أكبر، ويستجيب أسرع — منخفضاً زمن المعالجة لكل دفعة من التقارير بنحو النصف — ويحافظ على تاريخ موثوق لما تم رؤيته وقراره. بالنسبة للبنوك والمستشفيات والمواقع الصناعية وبيئات إنترنت الأشياء، يمكن لمثل هذا النظام أن يوفر عموداً فقرياً مشتركاً وشفافاً للدفاع السيبراني — يواصل التحسن مع ظهور هجمات جديدة، بدلاً من انتظار مجموعات قواعد ثابتة للحاق بالركب.
الاستشهاد: Mishra, S., Alfahidah, R.A. & Alharbi, F. BERT-spaCy hybrid NLP and blockchain-enhanced adaptive CTI for IOC extraction and threat prediction. Sci Rep 16, 8147 (2026). https://doi.org/10.1038/s41598-025-34505-2
الكلمات المفتاحية: معلومات تهديدات السايبر, اكتشاف البرمجيات الخبيثة, أمان سلسلة الكتل, التعلم الآلي, تسلل الشبكات