Clear Sky Science · ar

نمذجة السياق طويل المدى لاكتشاف ثغرات البرمجيات باستخدام نهج مبني على XLNet

· العودة إلى الفهرس

لماذا تهم العيوب المخفية في البرمجيات

تعتمد الحياة الحديثة على البرمجيات، من الخدمات المصرفية عبر الإنترنت وأنظمة المستشفيات إلى مشغّلات الفيديو وتطبيقات الدردشة. ومع ذلك قد تفتح حتى الأخطاء الصغيرة في الشيفرة الباب أمام القراصنة، معرضةً البيانات للسرقة أو الخدمات للتعطّل. يتجه خبراء الأمان بشكل متزايد إلى الذكاء الاصطناعي لمسح ملايين الأسطر من الشيفرة بحثًا عن مثل هذه النقاط الضعيفة. تستعرض هذه الورقة طريقة جديدة مبنية على الذكاء الاصطناعي، تسمى XLNetVD، مصممة لاكتشاف ثغرات برمجية دقيقة من خلال قراءة مقاطع أكبر بكثير من الشيفرة مقارنة بالعديد من الأدوات الحالية.

Figure 1
Figure 1.

من قوائم الكلمات البسيطة إلى الشيفرة التي تفهم السياق

تعاملت أساليب الذكاء الاصطناعي المبكرة لتحليل الشيفرة كل رمز—مثل اسم متغير أو رمز—تقريبًا ككلمة في القاموس ذات معنى ثابت. تقنيات مثل Word2Vec أو GloVe تعلّمت متجهًا واحدًا لكل رمز بغض النظر عن مكان ظهوره. هذا يعمل بشكل معقول في اللغة الطبيعية، لكنه غير كافٍ للبرامج، حيث يمكن لاسم متغير واحد أن يتصرف بشكل مختلف تمامًا اعتمادًا على مكان وكيفية استخدامه. النماذج الأحدث، المعروفة بنماذج التضمين السياقي، تنظر بدلًا من ذلك إلى الدالة بأكملها وتعديل تمثيل كل رمز وفقًا لسياقه. يسمح هذا لها بالتقاط أنماط متعلقة بتدفق البيانات وتدفق التحكم واعتماد المتغيرات على بعضها—أنماط غالبًا ما تشكل الفارق بين الشيفرة الآمنة وغير الآمنة.

إتاحة قراءة المزيد للذكاء الاصطناعي من الملف

تستخدم نماذج الشيفرة الشائعة مثل CodeBERT وGraphCodeBERT بالفعل هذا النهج الواعي للسياق، لكن عادة ما تقيّد "نطاق رؤيتها" بحوالي 512 رمزًا. بالنسبة للدوال الطويلة، أو للثغرات التي تتجلى إشارة لها في أجزاء متباعدة من الشيفرة، قد تكون تلك النافذة قصيرة جدًا. قد تُقطع عمليات التحقق المهمة قرب بداية الدالة عن العمليات الخطرة قرب نهايتها. يبني المؤلفون بدلًا من ذلك على XLNet، وهو نموذج مبني على Transformer-XL، الذي يستطيع تذكّر المعلومات عبر مقاطع ومعالجة تسلسلات أطول بشكل مريح (حتى 768 رمزًا في تجاربهم). يجعل هذا النموذج أكثر ملاءمة لربط أحداث متباعدة في الشيفرة—على سبيل المثال فهم أن قيمة ما تم التحقق منها سابقًا، أو إدراك أنها لم تُتحقق مطلقًا.

Figure 2
Figure 2.

جعل النماذج القوية أخف وأسرع

في كثير من الأحيان تتطلب النماذج الكبيرة للذكاء الاصطناعي أجهزة قوية، مما يقيّد استخدامها في بيئات التطوير اليومية. لمواجهة ذلك، يطبق المؤلفون طريقة ضبط دقيقة تُسمى التكيّف منخفض الرتبة (LoRA). بدلًا من تغيير جميع معاملات XLNet الكثيرة، تضيف LoRA طبقات محوّلة صغيرة تكون أقل تكلفة بكثير من ناحية التدريب والتخزين. يقدم الفريق مقياسًا بسيطًا، EffScore، يوزن مقدار الذاكرة والوقت الموفرين مقابل أي انخفاض في جودة الكشف. عبر عدة نماذج رائدة، يظهر XLNet مع LoRA كالأكثر كفاءة بشكل عام، مقدمًا دقة قوية بينما يستخدم موارد أقل بكثير.

الاختبار على مشاريع حقيقية وصناعية

يقيم الباحثون XLNetVD على مجموعتي بيانات مختلفتين تمامًا. تتألف إحداهما من شيفرة C حقيقية من 12 مشروعًا مفتوح المصدر—مثل مكتبات الوسائط وخوادم الويب—بنسبة منحازة للغاية تقارب دالة معرضة للثغرة لكل 65 دالة غير معرضة، مما يعكس واقع قواعد الشيفرة الكبيرة. الأخرى مجموعة صناعية متوازنة من مشروع SARD، حيث تُصمم كل دالة لتمثيل نوع ضعف معروف. لا يكتفي XLNetVD بمضاهاة أو التفوق على أنظمة التعلم العميق السابقة وأدوات التحليل الساكن الكلاسيكية في هذه الاختبارات، بل يقدّم أداءً جيدًا أيضًا في إعدادات عبر المشاريع، حيث يتعيّن عليه العثور على عيوب في مشروع لم يره سابقًا. تفوقه يكون واضحًا بشكل خاص في الدوال الطويلة، حيث يكون السياق الطويل حاسمًا، وعبر مجموعة من فئات الثغرات مثل تجاوزات الأعداد الصحيحة، وسوء إدارة الموارد، والتعامل غير الصحيح مع المدخلات.

ماذا يعني هذا لسلامة البرمجيات اليومية

بالنسبة لغير المتخصصين، الرسالة الأساسية هي أن الذكاء الاصطناعي الأذكى الواعي للسياق يمكنه قراءة الشيفرة والتفكير فيها بشكل أقرب إلى مراجع بشري متمرس، ولكن بمقياس آلي. من خلال السماح للنموذج برؤية جزء أكبر من كل دالة ومن خلال ضبطه بكفاءة، يقدم XLNetVD وسيلة عملية لإعطاء أولوية لأي أجزاء من قاعدة شيفرة ضخمة تستحق فحصًا بشريًا أدق. لا يحل هذا محل عمليات التدقيق الأمني اليدوية أو الأساليب الشكلية، ولا يضمن خلو البرمجيات من الأخطاء. ومع ذلك، فإنه يحسّن بشكل كبير فرص اكتشاف الأخطاء الخطيرة مبكرًا، حتى في المشاريع غير المألوفة، مما يجعله لبنة واعدة لبناء بنية رقمية أكثر موثوقية وأمانًا.

الاستشهاد: Zhao, Y., Lin, G. & Liao, Z. Long-range context modeling for software vulnerability detection using an XLNet-based approach. Sci Rep 16, 5338 (2026). https://doi.org/10.1038/s41598-026-36196-9

الكلمات المفتاحية: ثغرات البرمجيات, أمان الشيفرة, التعلّم العميق, XLNet, ضبط LoRA الدقيق