Clear Sky Science · he

הפחתת רעש בתוויות בזיהוי חדירות רשת באמצעות מיון ודחיסה מבוססי-גרף של דגימות

· חזרה לאינדקס

מדוע תוויות נקיות חשובות לאבטחת סייבר

כל יום מערכות אבטחה עוקבות אחרי נהרות של תעבורת אינטרנט, וחותרות לזהות את הקשרים המזיקים המעטים המסתתרים בקרב מיליוני החיבורים התקינים. מערכות אלה נשענות יותר ויותר על למידת מכונה, שלומדת מדוגמאות עבר שסומנו כ"בטוחות" או "התקפה". אך אם רבות מהתוויות האלו שגויות, אפילו מודלים רבי-עוצמה יכולים להטעות, מה שישאיר רשתות פגיעות יותר ממה שנראה. מאמר זה מציג את SilentSentinel, שיטה שנועדה לנקות את אותן תוויות לפני האימון, כדי שמגיני חדירות יוכלו ללמוד מנתונים שניתן לסמוך עליהם.

הבעיה החבויה של תוויות שגויות

בניית מערכות זיהוי חדירות טובות מתחילה בנתונים, וכאן הדברים משתבשים. כדי להשיג תעבורה "זדונית", חוקרים לעתים מריצים תוכנות זדוניות בסביבות מבוקרות ומסמנים כזדוני כל מה שנוצר שם. במציאות, חלק גדול מהתעבורה הזו תקין לחלוטין, ולכן חיבורים בלתי מזיקים מסומנים בטעות כהתקפות. כלי זיהוי חדירות אוטומטיים המשמשים לתיוג יכולים אף הם לטעות, במיוחד מול איומים חדשים שמעולם לא נראו קודם. טעויות אלו יוצרות "רעש בתוויות", מצב שבו דגימות רבות בערכת הנתונים נושאות תווית שגויה. כאשר הרעש גבוה וההתקפות נדירות יחסית לתעבורה התקינה, שיטות אימון סטנדרטיות מתקשות: המודלים מתחילים לזכור שגיאות, גבולות ההחלטה שלהם נוטים בכיוון הלא נכון, ודיוק הגילוי יורד באופן חמור.

Figure 1
Figure 1.

אסטרטגיית ניקוי בשלבים

SilentSentinel מתמודד עם הבעיה בגישה ממוקדת נתונים: במקום רק לנסות להפוך את המודל לעמיד יותר, הוא עובד קודם על תיקון נתוני האימון. התצפית המרכזית היא שזרימות רשת הנובעות מאותו התנהגות בעולם האמיתי נוטות להיראות דומות במרחב התכונות, בין אם הן אכן תקינות או אכן זדוניות. המודול הראשון של SilentSentinel, שנקרא גילוי דגימות תקינות (Normal Sample Discovery, NSD), מחפש דגימות תעבורה שבגינן המודל חד-משמעית בטוח, משער שהתוויות שלהן נכונות, ומשתמש ביחסי הדמיון שלהן כדי לשנות את תוויות השכנים שלהן. זה נעשה על ידי בניית גרף שבו כל נקודה היא זרימה וקדקודים מחברים זרימות שמתנהגות באותו אופן. התוויות מהליבה הבטוחה מתפשטות בגרף, ורק דגימות שהתוויות החדשות שלהן תואמות במידה רבה נשמרות כ"נקיות". אלה הופכות לעוגנים לאימון, במיוחד עבור התעבורה התקינה הרובצת בשפע.

התמקדות בהתקפות נדירות

התעבורה התקינה דומיננטית בערכות נתונים אמיתיות, אך הזרימות הנדירות והאמתיות הזדוניות הן החשובות ביותר. רבות מהן נשארות בלתי ודאיות לאחר המעבר הגרפי הראשון. כדי להתמודד עם אלה, SilentSentinel מוסיף מודול שני, סינון דגימות זדוניות (Malicious Sample Screening, MSS). כאן שני רשתות נוירונים בעלות מבנה זהה אך נקודות התחלה שונות לומדות יחד. בכל שלב אימון כל רשת בוחרת את תת-הקבוצה של דגימות שהיא מוצאת אמינות ביותר ומשתפת אותן עם השנייה. עם הזמן, ההוראה ההדדית הזו מתמקדת בדוגמאות שעליהן שתי הרשתות מסכימות ומסננת בהדרגה את אלה שסביר כי תוויתן שגויה. פונקציית אובדן שנבחרה בקפידה מסייעת למנוע שהמחלקה הדומיננטית תטביע את דגימות ההתקפה הנדירות, מה שהופך את קבוצת הדוגמאות הזדוניות הסופית לטהורה ומלמדת יותר.

Figure 2
Figure 2.

מבחן המערכת

המחברים העריכו את SilentSentinel על שתי ערכות נתונים נפוצות לזיהוי חדירות: CIC-IDS2017, המכסה סוגים רבים של התקפות קלאסיות, ו-DoHBrw-2020, המתמקד בתעבורת DNS-over-HTTPS מוצפנת. הם סימולו תנאים ריאליסטיים על ידי הפיכת אחוז משמעותי מהתוויות בכוונה, עד 40 אחוז, והשוו את SilentSentinel מול מספר שיטות מובילות שנועדו להתמודד עם נתונים רועשים. בכל הגדרות הרעש הסימטרי והאסימטרי, SilentSentinel השיג בעקביות ציוני F1 גבוהים יותר, איזון של דיוק וזכירה. על הנתונים המאתגרים יותר של CIC-IDS2017 הוא שיפר את הביצועים ביותר מ-17 אחוזים בהשוואה לשיטה המתחרה הטובה ביותר תחת רעש גבוה. ב-DoHBrw שמר על ביצועים כמעט מושלמים גם כשהרעשים בתוויות עלו, בעוד ששיטות יריבות התדרדרו באופן בולט. ניתוח נוסף הראה ש-SilentSentinel השאיר פחות דגימות מתויגות בטעות בערכת האימון הסופית מאשר טכניקות קיימות.

מה משמעות הדבר לאבטחה היומיומית

עבור הקורא הרגיל, המסקנה ברורה: אם מלמדים מערכת אבטחה על דוגמאות מלאות שגיאות, היא תטעה גם בעולם האמיתי. SilentSentinel מתפקד כעורך קפדן העובר על ערכת אימון רועשת, משווה כל דוגמה לשכניها ולשתי רשתות "בוחנות" בלתי תלויות, ומתקן או זונח רשומות חשודות לפני תחילת הלמידה המרכזית. בכך הוא מאפשר למודלי זיהוי חדירות לראות תמונה נקייה יותר של איך נראית תעבורה תקינה וסזדונית באמת, גם כשהתיוג המקורי לא אמין. התוצאה הסופית היא מגן פורט-קצה יציב ואמין יותר ברשת — אחד ששומר על ביצועים טובים גם כשהנתונים שהוא לומד מהם רחוקים משלמות.

ציטוט: Zhao, R., Ding, J., Dong, Q. et al. Mitigating label noise in network intrusion detection via graph-based sample selection and purification. Sci Rep 16, 11674 (2026). https://doi.org/10.1038/s41598-026-45988-y

מילות מפתח: זיהוי חדירות רשת, רעשי תוויות, למידה מבוססת-גרף, תוויות רועשות, גילוי תעבורה זדונית