Clear Sky Science · he

זיהוי תוכנות זדוניות היררכי, זיהוי משפחות ושיוך זנים באמצעות מודלים משולבים מבוססי-CNN בתמונות ביצוע קובץ בגווני אפור

· חזרה לאינדקס

מדוע זה חשוב למשתמשי מחשב יומיומיים

תוכנות זדוניות כבר אינן מגיעות כבוטות בודדות שקל לזהות. כיום, התוקפים מייצרים במהירות אינספור תוכניות דומות שמצליחות להתחמק מכלי אנטי‑וירוס מסורתיים. במחקר זה מראים שברגע שהופכים תוכניות לתמונות שחור‑לבן פשוטות וקוראים אותן באמצעות רשתות זיהוי תמונה מודרניות, המחשב לא רק יכול לזהות תוכנה זדונית ברמת אמינות כמעט מושלמת, אלא גם למיין אותה למשפחות ואפילו לזהות זנים ספציפיים. רמת פירוט זו מסייעת למגנים להבין מה המתקפה מנסה להשיג, מה המקור שלה וכיצד לעצור אותה.

מבתים של תוכנה לתמונות אפורות

המחברים מתמקדים בקבצי ביצוע של Windows, סוג התוכניות שמפיצים לעתים קרובות תוכנות זדוניות במחשבים ניידים, שולחניים ושרתים. במקום לנתח כל קובץ ידנית או להריץ אותו בסביבת בדיקה מבוקרת, הם קוראים את הבתים הגולמיים של הקובץ וממפים כל בית לפיקסל בתמונה בגווני אפור. התוצאה היא תמונה שחור‑לבן בגודל 224×224 שהתבניות והגושים שבה משקפות מבנה פנימי בקובץ: אזורי קוד, ריפוד, מטענים מוצפנים ועוד. כל קובץ במאגר הנתונים מטופל כך, בין אם הוא תוכנה נטולת נזק ובין אם הוא אחד מ‑33 זנים נבדלים המשתרעים על פני חמש משפחות רחבות כגון תוכנות כופר ותוכנות ריגול.

Figure 1
Figure 1.

מודל אחד, שלוש תשובות בבת אחת

על בסיס התמונות הללו בוחננה מערכת למידה עמוקה שפועלת כמו פקיד מכס מנוסה. במבט אחד על תמונה נכנסת היא נותנת תשובות לשלוש שאלות בו‑זמנית: האם הקובץ הזה תמים או זדוני? אם זדוני, לאיזו משפחה רחבה הוא שייך? ואיזה זן ספציפי מתאר אותו בצורה הטובה ביותר? הליבה של המערכת היא רשת קונבולוציה, אותו סוג ארכיטקטורה המשמש לזיהוי תמונות יומיומי. שלד משותף זה לומד תכונות חזותיות כלליות מהתמונות בגווני האפור. מעליו יש שלוש ענפים מקבילים של פלט שמתמחים ברמות ההחלטה השונות, כך שהמערכת לומדת כיצד דפוסים גסים ודקים קשורים זה לזה במקום לטפל בכל משימה בנפרד.

שלוש דרכים לקרוא מבנה נסתר

כדי לבדוק איזו תצורה עובדת הכי טוב, המחברים בודקים שלוש גרסאות "היברידיות" של המודל. באחת מהן, ראש קונבולוציה טמפורלי מתייחס לתמונה מפושטת כסדרה ומשתמש במסננים מדוללים כדי לקשר אזורים מרוחקים, ולתפוס דפוסים לטווח ארוך המתפזרים ברחבי הקובץ. גרסה שנייה מוסיפה ראש מבוסס קפסולות שעוקב אחר האופן שבו חלקים קטנים משתלבים למבנים גדולים יותר, במטרה להבחין בין זנים קרובים שמשתפים רכיבים רבים. הגרסה השלישית משתמשת בשכבת רצף דו‑כיוונית שקוראת את התמונה משמאל לימין ומימין לשמאל, מחקה את האופן שבו ההקשר משני צידי אזור יכול לשנות את משמעותו. שלוש הגרסאות מאומנות בדיוק על אותו מאגר נתונים מאוזן, עם ייצוג שווה של כל זן תוכנה זדונית ושל קבצים תמימים, כדי להבטיח שהבדלי ביצועים ישקפו ארכיטקטורה ולא אנומליות בנתונים.

Figure 2
Figure 2.

עד כמה זה עובד?

על פני יותר מ‑3,000 תמונות מבחן שהוחזקו בצד, המודלים ההיברידיים מבצעים באופן מרשים. לשאלה הפשוטה ביותר—"זדוני או לא?"—שניים מתוך השלושה מגיעים לדיוק מושלם של 100%, והשלישי טועה רק בכמה קבצים תמימים, בגישה זהירה. כששואלים לזהות את המשפחה הרחבה, הדיוק נשאר גבוה מאוד ב‑97–98%, עם בלבול מזדמן בלבד בין קבוצות דומות התנהגותית כמו תוכנות ריגול וטרויאנים. המבחן הקשה ביותר הוא לזהות את הזן המדויק מתוך 33 אפשרויות. גם כאן שלושת המודלים מגיעים לדיוק של 93–94% כשהם משתמשים אך ורק בתמונות בגווני אפור, ופירוטי הציונים מראים שרוב הזנים מזוהים באמינות גבוהה מאוד. עיצוב אחד, שמשלב את שלד הקונבולוציה עם קונבולוציות טמפורליות, מציע את הביצועים המאזנים ביותר על פני כל הזנים.

מה היישום הזה אומר לחקירות דיגיטליות

עבור צוותי אבטחה ואנליסטים פורנזיים, התוצאות הללו הן יותר ממדד אקדמי. במקרה אמיתי, אלפי תוכניות חשודות עשויות להיאסף ממכונות נגועות. הרצת ניתוח התנהגותי מלא על כל אחת מהן איטית ותובענית במשאבים. המערכת המוצעת המבוססת על תמונות יכולה במהירות לסנן קבצים תמימים, לקבץ את השאר לפי משפחות ולזהות את הזנים הסבירים בפעולה אחת, הכל מבלי להריץ את הקבצים. זה הופך אותה לכלי טריאג' עוצמתי: החוקרים יכולים למקד את הכלים היקרים ביותר שלהם בדגימות החשובות ביותר ועדיין להשיג תובנה ברמת הקמפיין. המחקר מדגים שתמונות אפורות פשוטות של בתים בתוכנה, מעובדות בעיצובים נבחרים בקפידה של רשתות עצביות, מספיקות לתמוך בשיוך תוכנות זדוניות בקנה מידה ובדקויות שבעבר דרשו ניתוחים מורכבים ויסודיים הרבה יותר.

ציטוט: Saxena, M., Das, T. Hierarchical malware detection, family identification, and variant attribution using CNN-based hybrid models on grayscale executable images. Sci Rep 16, 9948 (2026). https://doi.org/10.1038/s41598-026-40655-8

מילות מפתח: זיהוי תוכנות זדוניות, למידה עמוקה, תמונות בגווני אפור, מודלי CNN היברידיים, חקירות דיגיטליות