Clear Sky Science · he

גילוי תוכנות זדוניות ברשתות IoT באמצעות CNNs ומהנדסי תכונות משולבים

· חזרה לאינדקס

מדוע גילוי תוכנות זדוניות חכם יותר חשוב

חפצים יומיומיים — ממוניטורי תינוקות ומנעולים חכמים ועד חיישנים תעשייתיים — מחוברים כיום לאינטרנט ושולחים ומקבלים נתונים בשקט. נוחות זו מביאה עמה עלות סמויה: פושעי סייבר יכולים להפוך מכשירים אלה לכלי ריגול או לבנות איתם מתקפות מקוונות רחבות היקף. כלי אנטי‑וירוס מסורתיים לא נועדו לעולם שמשתנה במהירות כזה. מאמר זה בוחן כיצד שילוב חדש של ניקוי נתונים, ייצוג חכם של נתונים ולמידה עמוקה יכול לתפוס פעילות זדונית במכשירים מחוברים אלו בדיוק מרשים.

Figure 1
Figure 1.

איימים נסתרים במכשירים מחוברים

תוכנות זדוניות הן תוכנה שנועדה להזיק: לרגל אחרי משתמשים, לגנוב מידע או להשתלט על מחשבים ומכשירים. ברשתות Internet of Things (IoT) תוכנה כזו יכולה לנוע בשקט בתוך התעבורה בין מכשירים כמו מצלמות, ראוטרים וכמדי חכמים. התוקפים משנים כל הזמן את הטקטיקות שלהם, משתמשים בעוקצים להסתיר את הקוד ולהתחפש להתנהגות רגילה. שיטות הגנה ישנות תלויות לעתים קרובות ב"חתימות" ידועות או בכללים פשוטים, שקשה להם לעמוד בקצב הדפוסים המשתנים. כדי להגן על רשתות מודרניות, המגנים זקוקים לכלים שיכולים ללמוד רמזים דקים מתוך זרמי תעבורה עצומים ולהתאים את עצמם ככל שהתוקפים מתפתחים.

הפיכת תעבורה מבולגנת לאותות בעלי משמעות

המחברים מתחילים מאוסף גדול וריאלי של חיבורים ברשת הנקרא UNSW-NB15, הכולל גם תעבורה יומיומית וגם כמה סוגי מתקפות. נתוני רשת גולמיים הם מבולגנים: הם מכילים ערכים חסרים, רשומות חוזרות, קודים לא עקביים ומספרים בטווחי גדלים שונים מאוד. הצוות מנקה תחילה את הנתונים על ידי הסרת רשומות שבורות וחוזרות, תיקון ערכים מוזרים והמרת ערכים טקסטואליים — כגון מצב החיבור או סוג השירות — לצורה נומרית. לאחר מכן הם מנרמלים ערכים מספריים כך שתכונות כמו ספירות חבילות ומשך ירדו לטווח משותף, מה שמקל על האלגוריתם הלומד להשוות ביניהן.

הוספת משמעות באמצעות הנדסת תכונות

חידוש מרכזי בעבודה זו הוא צינור "הנדסת תכונות" עשיר המיושם על תעבורה מובנית ברשת. במקום להזין שדות גולמיים ישירות לרשת נוירונים, המחברים מעצבים אותם מחדש באמצעות מספר טכניקות משלימות שנלקחו מעיבוד טקסט. Bag of Words ו‑TF‑IDF ממירים שדות קטגוריאליים לספירות ולציון חשיבות משוקלל, שעוזרים לדרבן דפוסים נדירים אך מסבירים. Word2Vec ממפה ערכים דומים לנקודות קרובות במרחב נומרי, ותופס יחסים שספירות פשוטות מפספסות. ניתוח רכיבים עיקריים (PCA) דוחס לאחר מכן את הייצוגים המממדיים הגבוהים הללו לקבוצת כיוונים אינפורמטיבית קטנה יותר, בעוד סינון תכונות רקורסיבי וניתוח קורלציה מסירים קלטים מיותרים או לא מועילים. התוצאה היא מבט דחוס ועשיר במידע על כל חיבור, המותאם היטב ללמידה עמוקה.

רשתות עמוקות שמצפות את זרמי התעבורה

על בסיס הנתונים המהונדסיים הללו, החוקרים מעצבים ומשווים חמישה מודלים של רשת נוירונים קונבולוציונית חד‑ממדית (CNN). CNN מוכרות בדרך כלל בזיהוי תמונות, אך כאן הן מחליקות מסננים קטנים מעל רצפים של תכונות תעבורה כדי לזהות דפוסים חוזרים המקושרים למתקפות. המחקר בוחן מספר וריאנטים ארכיטקטוניים, הנקראים M‑בלוקים, השונים בעומק, במספר המסננים, בשימוש בנורמליזציית אצוות (batch normalization) וב‑dropout (העוזרים לייצב אימון ולמנוע התאמה יתר), ובאופן בו הקלט מעוצב מחדש. המודלים מאומנים עם טכניקות אופטימיזציה סטנדרטיות, מוערכים דרך ולידציה צולבת מדוקדקת ונבדקים על חלק בלתי תלוי ממערכת הנתונים שנשאר בלתי נראה במהלך האימון.

Figure 2
Figure 2.

מה התוצאות מגידות לנו

ההתקדמות במודלים מראה כיצד עיבוד מוקדם חכם ועיצוב ארכיטקטורה משפרים בהדרגה את הביצועים. גרסאות CNN מוקדמות כבר מזהות את רוב המתקפות אך מסמנות בטעות הרבה חיבורים בטוחים. ככל שהמחברים מוסיפים הנדסת תכונות חזקה יותר ומלטשים את מבנה ה‑CNN, שיעורי השגיאה צונחים בחדות. שני המודלים המתקדמים ביותר, המשלבים מספר קידודים דמויי‑טקסט (Bag of Words, TF‑IDF, Word2Vec), הפחתת מימדיות (PCA) ו‑CNN מותאמת, הגיעו לציונים מושלמים על נתוני המבחן: דיוק של 100% ויכולת הפרדה חסרת דופי בין תעבורה זדונית לתקינה. למרות זאת, המודל הסופי נשאר קומפקטי ומהיר, דורש רק חלק ממגה‑בייט של זיכרון ומעבד אלפי חיבורים בשנייה על CPU סטנדרטי — דבר חשוב לשערים ומכשירי קצה בעלי משאבים מוגבלים.

מה זה אומר לאבטחה היומיומית

פשטות היא שמראה שהמחקר מראה שניתן ללמד מערכת למידה עמוקה "לקרוא" תעבורת רשת באמצעות תכונות עשירות ומוכנות בקפידה, וכך לשפר באופן דרמטי את גילוי המתקפות הנסתרים ברשתות IoT. על ידי הפיכת נתונים גולמיים לדפוסים בעלי משמעות ומתן אפשרות ל‑CNN ללמוד את ההבדל בין התנהגות תקינה לבין מזיקה, המחברים בונים גלאים שהם גם מדויקים וגם יעילים. אמנם בתנאים אמיתיים המצב יהיה תמיד מגוון יותר מכל מאגר נתונים אחד, עבודה זו מצביעה על הגנות מעשיות ומתאימות שיכולות לסייע לשמור על בתינו, עסקים והערים המחוברות שלנו בטוחים יותר מפני איומי סייבר מתפתחים.

ציטוט: Abd-Ellah, M.K., Alsayed, N.A., Elkomy, O.M. et al. Malware detection in IoT networks with CNNs and integrated feature engineering. Sci Rep 16, 12886 (2026). https://doi.org/10.1038/s41598-026-47389-7

מילות מפתח: גילוי תוכנות זדוניות ב-IoT, ניתוח תעבורת רשת, אבטחת למידה עמוקה, רשתות נוירונים קונבולוציוניות, גילוי חדירות