Clear Sky Science · he

התקדמות בגילוי APT באמצעות למידת תכונות מונעת טרנספורמר ויצירת נתונים סינתטיים

· חזרה לאינדקס

מדוע התקפות סייבר חבויות חשובות

ארגונים מודרניים נשענים על רשתות מחשבים שפעילות ללא הרף, משימוש בדפדוף באינטרנט ועד שירותים ממשלתיים קריטיים. בתוך הרעש הדיגיטלי הזה טמונים חלק מהאיומים הקשים ביותר: איומים מתמשכים מתקדמים (APTs). התקפות אלה, שקטות ומתמשכות לאורך זמן, לעתים קרובות נתמכות על‑ידי קבוצות מיומנות ויכולות להשתקע במערכות למשך חודשים. המאמר מציג שיטה חדשה, המכונה ET‑SDG, שמשתמשת בהתקדמות האחרונה בבינה מלאכותית כדי לנפות זרמי תעבורת רשת עצומים, ללמוד מהו התנהגות באמת חשודה ולזהות פעילות APT נדירה אך חמורה באמינות גבוהה יותר מכלים קודמים.

האתגר של מציאת מחט בערימת שחת דיגיטלית

קמפיינים של APT שונים מתוכנות זדוניות שגרתיות בכך שהם איטיים, מסתגלים וממוקדים בקפידה. הם משתמשים בתחבולות כמו ניצול פגיעויות לא ידועות והסתרת התקשורת בתוך תעבורה שנראית רגילה. מערכות גילוי חדירות מסורתיות מתבססות על כללים קבועים או חתימות ידועות, ולכן התקפות חדשות או משוננות עלולות לעבור מתחת לרדאר. מחקרים עדכניים פנו ללמידת מכונה כדי לצוד דפוסים עדינים ב'זרימות' של הרשת — סיכומים של מי דיבר עם מי, כמה זמן ולכמה נתונים הועברו. אך נשארים שני בעיות: הדפוסים בתוך זרימות אלה מורכבים, וסטי נתונים מהעולם האמיתי לא מאוזנים באופן חמור, עם הרבה תעבורה רגילה לעומת מעט מקרים מאומתים של APT. חוסר איזון זה עלול לגרום למערכות AI להיות מצטיינות בזיהוי התנהגות רגילה תוך שהן מתעלמות בשקט מהאירועים הנדירים והחשובים ביותר.

Figure 1
Figure 1.

דרך חכמה יותר לקרוא זרימות רשת

מסגרת ET‑SDG מתמודדת עם הבעיה הראשונה — הבנת תעבורה מורכבת — על ידי פירוק המשימה לשלביה. התהליך מתחיל בעשרות תיאורים מספריים לכל זרימת רשת. שיטה הידועה כ‑ExtraTrees מתפקדת כמבקר מהיר ופשוט: היא משווה עצי החלטה רבים כדי לקבוע אילו תכונות מסייעות הכי הרבה להבחין בין תעבורת התקפה לתעבורה רגילה, ומנפה את השאר. הנתונים המצומצמים מועברים לאחר מכן לטרנספורמר, משפחת מודלים המוכרת בעיקר ככוח מאחורי כלי שפה מודרניים. במקום לקרוא מילים במשפט, הטרנספורמר כאן "קורא" תכונות תעבורה, ומשתמש במנגנון תשומת הלב שלו כדי ללמוד כיצד מאפיינים שונים של חיבור משפיעים זה על זה. התוצאה היא טביעת אצבע קומפקטית ומודעת‑קונטקסט לכל זוג מחשבים מתקשרים, עשירה מספיק כדי ללכוד את התנהגותם של קמפיינים מרובי‑שלבים של APT.

יצירת דוגמאות מציאותיות להתקפות נדירות

המכשול המרכזי השני הוא שמועטות מאוד דוגמאות מאומתות של APT לעומת ערמות תעבורה תמימה. העתקה פשוטה של רשומות ההתקפה החסרות, כפי שעושים שיטות בסיסיות של Oversampling, מסכנת ללמד את המודל לשנן במקום להכליל. ET‑SDG מתמודד עם זאת באמצעות מודל גנרטיבי מותנה לסינתזה (CGMS), המבוסס על סוג רשת עצבית הידועה כ‑conditional GAN. הגנרטור לומד ליצור נקודות נתונים סינתטיות חדשות המדמות סטטיסטית את התנהגות ה‑APT הידועה, בעוד רשת אחרת מנסה להבחין בין אמיתי למזויף. על‑ידי אימון משותף של שניהם, המערכת מייצרת דוגמאות נוספות ומגוונות של תעבורת התקפה, אך רק בתוך נתוני האימון כדי להימנע מזיהום ההערכה. שכבה המבוססת על תשומת לב מתמקדת לאחר מכן בחלקים המידע‑מרתקים ביותר של הייצוגים המועשרים לפני שמחלק סופי מחליט האם זוג כתובות IP סביר שיהיה תמימה או תחת התקפה.

Figure 2
Figure 2.

בדיקה על מערכי נתונים אמיתיים וקשים

כדי לבדוק האם העיצוב משתלם, המחברים העריכו את ET‑SDG על מאגר משולב של לכידות תוכנות זדוניות APT אמיתיות ותעבורת רשת ממשלתית, וכן על קנה‑מידה ציבורי גדול לגילוי חדירות המפורסם בחוסר האיזון החמור שלו במחלקות. הם השוו את המערכת שלהם עם מגוון אלטרנטיבות, החל ממודלים עמוקים פשוטים שמעבדים זרימות כסדרות זמן ועד גישות מבוססות גרפים המדגישות קשרים בין מכונות. על פני מדדים מרובים — כולל דיוק, דיוק חיובי, זכרון וציון F1 — ET‑SDG התאימה או עלתה ברוב המקרים על המתחרים, לעתים בשיפור של אחת עד ארבע נקודות אחוז. באופן חשוב, היא עשתה זאת תוך שמירה על שיעורי התקפות מפוספסות ואלarmeי שווא נמוכים, והביצועים שלה נותרו יציבים כאשר הנתונים נערבבו מחדש בבדיקות חציון צולבות חוזרות.

מה המשמעות הזאת לאבטחה היומיומית

עבור קהל שאינו מומחה, המסקנה המרכזית היא ש‑ET‑SDG מציעה דרך משוכללת יותר לצפות בתעבורת רשת. על‑ידי לימוד אילו פרטים חשובים, פרשנותם בהקשר, ולבסוף המצאת דוגמאות מציאותיות נוספות להתקפות נדירות, המערכת משתפרת בזיהוי התנהגות APT סתמית מתוך הצ'אטר הדיגיטלי היומיומי. אף שגישה זו דורשת יותר משאבים חישוביים מאמצעים ישנים ונבחנה עד כה בעיקר בניסויים לא‑בזמן אמת, היא מראה ששילוב זיהוי דפוסים מתקדם עם יצירת נתונים סינתטיים זהירה יכול לחזק משמעותית מערכות התראה מוקדמת. במונחים מעשיים, הדבר יכול לסייע לצוותי אבטחה לזהות חדירות חמורות מוקדם יותר, להתמקד בהתראות איכותיות יותר ולהגן טוב יותר על שירותים קריטיים מפני פגיעה לטווח ארוך.

ציטוט: Danh, L.T.K., Xuan, C.D. & Van, N.N. Advancing APT detection through transformer-driven feature learning and synthetic data generation. Sci Rep 16, 11772 (2026). https://doi.org/10.1038/s41598-026-41317-5

מילות מפתח: איומים מתמשכים מתקדמים, גילוי חדירות רשת, מודלים טרנספורמר, יצירת נתונים סינתטיים, בינה מלאכותית בסייבר