Clear Sky Science · he

זיהוי דואר זבל ב‑SMS חוצי‑שפות באמצעות השבחה מבוססת GAN לערכות נתונים בלתי‑מאוזנות

· חזרה לאינדקס

מדוע הודעות הטקסט שלכם עדיין צריכות הגנה

רובנו מניחים שהודעות לא רצויות ייגנזו בשקט בתיקיית הספאם, אך מאחורי הקלעים זו בעיה קשה מאוד. דואר זבל אמיתי נדיר לעומת הודעות יומיומיות, והוא מופיע יותר ויותר במספר שפות בו־זמנית. מאמר זה מציג דרך חדשה לזהות דואר זבל מסוכן ב‑SMS על ידי שילוב של מודלים לשוניים חזקים עם "גנרטור" חכם של "נתונים מזויפים", כך שסינונים יכולים ללמוד ממספר גדול יותר של דוגמאות להודעות מזיקות מבלי לסכן את הפרטיות שלכם.

Figure 1
Figure 1.

הבעיה של דואר זבל נדיר ומשנה צורה

הודעות ספאם מהוות רק בערך אחת מתוך שבע הודעות, אך פספוס אפילו של חלק קטן מהן עלול לחשוף אנשים להונאות, תוכנות זדוניות וגניבת זהות. מסננים מסורתיים מתקשים כי הודעות SMS קצרות, מלאות סלנג וקיצורים, ומגיעות בזמן אמת עם מעט הקשר נוסף. כתוצאה מכך, מערכות רבות נוטות לסווג הודעות כבטוחות, מה שמשאיר משתמשים מרוצים אך מאפשר ליותר הודעות מזיקות לחלחל. תחבולות ישנות שמכפילות הודעות ספאם או ממציאות אחרות על ידי שינוי מילים יכולות לעזור במעט, אך לעתים קרובות הן מבלבלות את המסנן או יוצרות דוגמאות לא ריאליסטיות שאינן תואמות את מה שעבריינים שולחים בפועל.

לתת למכונות להבין את משמעות ההודעה

המחברים מתחילים בהשוואה של שמונה אלגוריתמי למידה שונים, מכלים מוכרים כמו מכונות וקטור תמיכה ועצי החלטה ועד רשתות נוירונים מתקדמות שקוראות טקסט כרצף, כגון רשתות זיכרון לטווח ארוך (LSTM). הם גם בוחנים חמש דרכים להפוך מילים למספרים שהמחשב יכול להשתמש בהם. ספירות פשוטות של תדירות המילים (המוכרות בשם bag‑of‑words או TF–IDF) מהירות אך עיוורות למשמעות. "הטמעות" חדשות כמו Word2Vec ו‑GloVe ממקמות מילים בעלות משמעות דומה קרוב זו לזו במרחב מספרי. המתקדמות ביותר הן מודלים מבוססי Transformer כגון BERT, שמותאמים לייצוג מילה בהתאם למשפט המקיף אותה, ועוזרים למערכת להבחין, למשל, בין תזכורת ידידותית להונאה משכנעת.

שימוש בספאם "מזוייף" חכם לתיקון מערך נתונים אינו‑מאוזן

החידוש המרכזי הוא האופן שבו המחקר מתמודד עם המחסור בדוגמאות ספאם. במקום ליצור משפטים מזויפים מלאים, הצוות מאמן סוג של רשת נוירונים שנקראת Generative Adversarial Network (GAN) ישירות על ההטמעות המספריות של הודעות ספאם. חלק אחד ב‑GAN, המחולל, לומד ליצור נקודות סינתטיות הדומות לספאם במרחב רב‑הממדי זה, בעוד חלק אחר, המבדיל, לומד להבדיל ביניהן לבין נקודות אמיתיות. דרך יריבות זו מייצר המחולל הטמעות ספאם חדשות וריאליסטיות שמרחיבות את סט ההכשרה. בדיקת איכות מבוססת דמיון מוודאת שרק דוגמאות סינתטיות שדומות במידה רבה לספאם אמיתי נשמרות, מה שמפחית את הסיכון של נתונים חסרי משמעות שעשויים להטעות את הממיין.

Figure 2
Figure 2.

תוצאות על פני שפות ומכשירים

החוקרים בודקים 120 שילובי מודלים, הטמעות ושיטות איזון נתונים שונות, הן על מערך נתוני SMS באנגלית והן על גרסה רב‑לשונית מתורגמת לצרפתית, גרמנית והינדי. בכל הקטגוריות, הטמעות הקונטקסטואליות כגון BERT מבצעות טוב יותר מגישות ישנות של ספירת מילים. ההגדרה הטובה ביותר — LSTM דו‑כיווני המוזן בהטמעות BERT ומאומן עם דוגמאות ספאם שנוצרו ב‑GAN — משיגה ציון F1 של כ‑97.6% על הודעות באנגלית וכ‑94.4% על הסט הרב‑לשוני, ועוקפת מערכות מדינת‑האמנות הקיימות. באופן קריטי, היא עושה זאת ושומרת על שיעור אזעקות שווא נמוך מאוד, דרישה חשובה כדי שלא לטעות ולהסתיר מהמשתמשים סיסמאות חד‑פעם או התראות בנק. המחקר משווה גם את אסטרטגיית ה‑GAN לכלי איזון נפוצים יותר כגון SMOTE ו‑ADASYN, ומוצא שה‑GAN מייצר נתוני הכשרה נקיים וריאליסטיים יותר וביצועים כלליים מעט טובים יותר.

מה המשמעות של זה למשתמשים יום‑יומיים

ללא מומחיות מיוחדת, המסקנה היא שסינני הספאם מתחילים להבין את משמעות ההודעות וההקשר שלהן, לא רק מילים בודדות, וניתן "ללמדם" בעזרת נתונים סינתטיים שנבנו בקפידה במקום להציג להם יותר מהודעותיכם האמיתיות. על‑ידי עבודה ישירה במרחב שבו מקודדת משמעות ההודעה, השיטה המוצעת נותנת למערכות אבטחה תמונה עשירה יותר של איך ספאם נראה בכמה שפות, מבלי להציף אותן בזיופים מגושמים. זה מגדיל את הסבירות שהודעות מסוכנות ייתפסו והודעות אמיתיות יגיעו ליעדן, ומספק מגן חזק וגמיש יותר למשתמשי נייד ככל שהמתחזים ממשיכים לשנות טקטיקותיהם.

ציטוט: Filali, A., Shorfuzzaman, M., Abdellaoui Alaoui, E. et al. Cross-lingual SMS spam detection using GAN-based augmentation for imbalanced datasets. Sci Rep 16, 7128 (2026). https://doi.org/10.1038/s41598-026-37769-4

מילות מפתח: זיהוי דואר זבל ב‑SMS, השבחת נתונים ב‑GAN, הטמעות טקסט של BERT, סייברסקיוריטי רב‑לשוני, דיגום נייד (phishing)