Clear Sky Science · ar
اكتشاف الرسائل النصية المزعجة عبر اللغات باستخدام تضخيم قائم على شبكات GAN لمجموعات البيانات غير المتوازنة
لماذا رسائلك النصية لا تزال بحاجة للحماية
معظمنا يثق في أن الرسائل غير المرغوب فيها ستنتهي بهدوء داخل مجلد السبام، لكن خلف الكواليس هذه مسألة صعبة للغاية. الرسائل المزعجة الحقيقية نادرة بالمقارنة مع الرسائل اليومية، وتظهر بشكل متزايد بعدة لغات في آن واحد. تقدم هذه الورقة طريقة جديدة لاكتشاف الرسائل المزعجة الخطرة عبر مزج نماذج لغوية قوية مع مولّد «بيانات وهمية» ذكي، بحيث تستطيع المرشحات التعلم من أمثلة أكثر بكثير للرسائل الضارة دون تعريض خصوصيتك للخطر.

مشكلة السبام النادر والمتبدل الشكل
الرسائل المزعجة تشكّل نحو رسالة واحدة من كل سبع رسائل، ومع ذلك فإن فشل اكتشاف حتى جزء صغير منها قد يعرض الناس للاحتيال والبرمجيات الخبيثة وسرقة الهوية. تتعثر المرشحات التقليدية لأن رسائل SMS قصيرة، ومليئة بالعامية والاختصارات، وتصل في الوقت الحقيقي مع سياق قليل. ونتيجة لذلك، تميل العديد من الأنظمة إلى اعتبار الرسائل آمنة، مما يرضي المستخدمين لكنه يسمح بمرور نصوص أكثر خطورة. الحيل القديمة التي تكرر الرسائل المزعجة ببساطة أو تختلق رسائل جديدة عبر تعديل الكلمات قد تساعد قليلاً، لكنها غالباً ما تربك المرشح أو تخلق أمثلة غير واقعية لا تطابق ما يرسله المجرمون فعلاً.
تعليم الآلات فهم معنى الرسائل
يبدأ الباحثون بمقارنة ثمانية خوارزميات تعلم مختلفة، من أدوات مألوفة مثل آلات المتجه الداعم وشجرات القرار إلى شبكات عصبية متقدمة تقرأ النص كسلسلة، مثل شبكات الذاكرة الطويلة القصيرة (LSTM). كما يختبرون خمس طرق لتحويل الكلمات إلى أرقام يمكن للحاسوب استخدامها. العدّ البسيط لعدد مرات ظهور كل كلمة (المعروف بحقيبة الكلمات أو TF–IDF) سريع لكنه أعمى عن المعنى. أما «التضمينات» الأحدث مثل Word2Vec وGloVe فتوضع الكلمات ذات المعاني المتشابهة بالقرب من بعضها في فضاء رقمي. والأكثر تقدماً هي نماذج المحولات مثل BERT، التي تضبط تمثيل الكلمة اعتماداً على الجملة المحيطة بها، مما يساعد النظام على التفريق، على سبيل المثال، بين تذكير ودّي واحتيال مُقنِع.
استخدام سبام «وهمي» ذكي لإصلاح مجموعة بيانات منحازة
الابتكار المركزي هو طريقة تعامل الدراسة مع نقص أمثلة السبام. بدلاً من توليد جمل كاملة وهمية، يدرب الفريق نوعاً من الشبكات العصبية يسمى شبكة الخصومة التوليدية (GAN) مباشرة على تضمينات الرسائل المزعجة العددية. جزء من الـGAN، المولّد، يتعلم خلق نقاط تركيبية شبيهة بالسبام في هذا الفضاء عالي الأبعاد، بينما يتعلم جزء آخر، المميّز، التفريق بينها وبين الحقيقية. عبر هذه المواجهة، ينتج المولّد تضمينات سبام جديدة وواقعية توسّع مجموعة التدريب. فحص جودة مبني على التشابه يضمن الاحتفاظ فقط بالأمثلة الاصطناعية التي تشبه السبام الحقيقي عن كثب، مما يقلّل خطر بيانات هراء قد تضلّل المصنّف.

النتائج عبر اللغات والأجهزة
يختبر الباحثون 120 تركيبة مختلفة من النماذج والتضمينات وطرق موازنة البيانات، سواء على مجموعة بيانات SMS الإنجليزية أو على نسخة متعددة اللغات مترجمة إلى الفرنسية والألمانية والهندية. عبر اللوحة، تتفوّق التضمينات السياقية مثل BERT على أساليب عدّ الكلمات القديمة. أفضل إعداد — LSTM ثنائي الاتجاه مُغذّى بتضمينات BERT ومُدرّب بأمثلة سبام مولّدة بواسطة GAN — يصل إلى درجة F1 قرابة 97.6% على الرسائل الإنجليزية و94.4% على المجموعة متعددة اللغات، متجاوزاً أنظمة الحالة-المنزلية القائمة. والأهم أنه يحقق ذلك مع إبقاء الإنذارات الكاذبة منخفضة للغاية، وهو مطلب مهم حتى لا تُخفي كلمات المرور ذات الاستخدام مرة واحدة وتنبيهات البنوك عن المستخدمين عن طريق الخطأ. تقارن الدراسة أيضاً استراتيجية GAN مع أدوات الموازنة الشائعة مثل SMOTE وADASYN، وتجد أن الـGAN ينتج بيانات تدريب أنقى وأكثر واقعية وأداءً عامّاً أفضل قليلاً.
ما يعنيه هذا للمستخدمين اليوميين
لغير المتخصصين، الخلاصة هي أن مرشحات السبام بدأت تفهم معنى وسياق رسائلك، وليس مجرد الكلمات المفردة، ويمكن «تدريبها» ببيانات تركيبية مُعدّة بعناية بدل أن ترى المزيد من نصوصك الحقيقية. بالعمل مباشرة في الفضاء الذي يُشفّر فيه معنى الرسالة، تمنح الطريقة المقترحة أنظمة الأمن صورة أغنى عن شكل السبام في لغات متعددة، من دون إغراقها بأمثلة ركيكة. وهذا يجعل احتمال اكتشاف الرسائل الخطرة وتسليم الرسائل الحقيقية أكبر، موفِّراً درعاً أقوى وأكثر قابلة للتكيّف لمستخدمي الهواتف المحمولة مع استمرار المحتالين في تغيير تكتيكاتهم.
الاستشهاد: Filali, A., Shorfuzzaman, M., Abdellaoui Alaoui, E. et al. Cross-lingual SMS spam detection using GAN-based augmentation for imbalanced datasets. Sci Rep 16, 7128 (2026). https://doi.org/10.1038/s41598-026-37769-4
الكلمات المفتاحية: اكتشاف الرسائل النصية المزعجة, تضخيم بيانات GAN, تضمينات نصية BERT, الأمن السيبراني متعدد اللغات, التصيّد عبر المحمول