Clear Sky Science · he

סיווג תוכנות זדוניות לאנדרואיד בכמה דוגמאות עם למידה פרוטוטיפית משופרת בכוח הקוונטי וזיהוי סטייה

· חזרה לאינדקס

עוצרים אפליקציות מזיקות לפני שהן מתפשטות

לרובנו יש מחשב חזק בכיס, ונוחות זו מלוּוה במירוץ סמוי: צוותי אבטחה שמנסים לזהות תוכנות זדוניות חדשות לאנדרואיד מהר ככל שהעבריינים ממציאים אותן. מערכות ההגנה המסורתיות זקוקות לאלפי אפליקציות ידועות רעות כדי ללמוד מה לחסום, וזה איטי מדי כשמשפחות מזיקות חדשות מופיעות כל שבוע. מאמר זה מציג גלאי חכם יותר שיכול ללמוד ממספר מצומצם של דוגמאות, להתעדכן ככל שההתקפות מתפתחות לאורך זמן, ועדיין להסביר מדוע הוא מסמן אפליקציה מסוימת—ומספק מתווה להגנה עמידה יותר בטלפונים יומיומיים.

מדוע איומים חדשים קשים כל כך לתפיסה

אנדרואיד שולטת כיום בשוק הטלפונים הגלובלי, מה שהופך אותה למטרה משתלמת למחברי תוכנות זדוניות שמייצרים מאות אלפי דגימות חדשות ביום. מערכי נתונים בעולם האמיתי מוטים: כמה משפחות מזיקות מכילות מספר עצום של אפליקציות, בעוד שמשפחות מתהוות רבות כוללות פחות מעשר דגימות ידועות. בנוסף, התוקפים משנים ללא הרף את האסטרטגיות שלהם, מה שגורם לצורת הנתונים הסטטיסטית לסטות במשך חודשים ושנים. מערכות למידת מכונה קלאסיות שמאומנות פעם אחת על תכונות טכניות בעלות מימד גבוה מתקשות בסביבה כזו: הן צריכות דוגמאות מתויגות רבות מכל משפחה, נהיות שבירות כאשר נוף האיומים משתנה, ואילוץ של אימון מחדש מאפס יקר ואיטי.

למידה מכמה דוגמאות רעות בלבד

המחברים מציעים מסגרת שמתייחסת לזיהוי תוכנות זדוניות יותר כאל למידת "דמיון" מאשר שינון תוויות. אחרי קיצוץ של תכונות האנדרואיד הגולמיות בכ־95–99% באמצעות טכניקה הנקראת CatBoost, המערכת מזינה את התיאורים המצומצמים הללו לרשת "פרוטוטיפית". במהלך האימון הרשת פותרת שוב ושוב משימות תרגול קטנות שבהן עליה להבחין בין כמה מחלקות תוך שימוש רק בכמה דוגמאות מכל אחת. עם הזמן היא לומדת מפה פנימית שבה אפליקציות מאותה משפחה יושבות קרובות זו לזו, ומשפחות שונות יוצרות אשכולות מופרדים היטב. בפריסה, אנליסטים של אבטחה זקוקים רק לכ־חמש דוגמאות מאומתות של משפחה מזיקה חדשה: המערכת ממוצעת את המיקומים שלהן ליצירת פרוטוטיפ ומסווגת אפליקציות חדשות על סמך הפרוטוטיפ הקרוב ביותר, והופכת בעיה רעבה לנתונים לבעיה של למידה בכמה דוגמאות.

Figure 1
Figure 1.

הוספת ניואנס קוונטי וצפייה בשינוי

כדי להוציא יותר תובנה מהתכונות שכבר הוצמדו, המסגרת מנסה שכבה מסווגת קטנה בהשראת קוונטום. מעגל ארבע־קיוביטים מקודד וקטור תכונות זעיר למצב קוונטי, מסבך את הקיוביטים ואז מודד אותם; שכבה קלאסית פשוטה ממפה את המדידות האלה להחלטה. בסימולציה השלב ההיברידי הזה מוסיף שיפור צנוע אך משמעותי סטטיסטית בדיוק, מרמז שמכשירי קוונטום עשויים בעתיד לעזור ללכוד יחסים עדינים בין התנהגויות בתוך אפליקציה. במקביל, המערכת מנטרת במפורש עד כמה היא מתפקדת על פרוסות כרונולוגיות של נתונים שנשאבו ממאגר אנדרואיד מתוזמן. על ידי אימון על פרוסות מוקדמות ובדיקה על מאוחר יותר, היא יכולה למדוד עד כמה הדיוק נשחק כשהתנהגות התוכנה זזה ולהתריע מתי נחוץ אימון מחדש.

בדיקת הגישה במבחן

החוקרים מעריכים את המסגרת שלהם על שני מאגרי נתונים ציבוריים גדולים. האחד, CCCS-CIC-AndMal-2020, מכיל מאות אלפי אפליקציות אנדרואיד בין משפחות מזיקות רבות ותוכניות לגיטימיות, כאשר כל אחת מתוארת על־ידי מעל 9,000 תכונות קוד והתנהגות. השני, KronoDroid, מציע פחות תכונות אך כולל חותמות זמן מ‑2008 עד 2020, מה שהופך אותו לאידיאלי למעקב אחרי שינוי לאורך זמן. לאחר בחירת התכונות, המערכת משתמשת רק ב‑51 ו‑29 תכונות במאגרי הנתונים האלה בהתאמה, ועדיין מגיעה לדיוק של כ־99–100%, עם שיעורי אזעקה שווא ושיעורי פספוס נמוכים מאוד. היא גם מראה שהיא יכולה לסווג משפחות מזיקות שהוחזקו לחלוטין מחוץ לאימון עם ירידה קטנה בלבד בביצועים, ושדיוקה מתדרדר רק במעט על פני תקופות זמן מדומות כאשר מתאפשר אימון מחדש תקופתי.

Figure 2
Figure 2.

מבט בתוך התיבה השחורה

מעבר לציונים הגולמיים, המחברים משתמשים בכלי הסבר מודרניים כדי לראות אילו התנהגויות משפיעות ביותר על ההחלטות. הם מגלים כי פעולות ברמת נמוכה על קבצים—כמו האופן שבו אפליקציות מטפלות במזהי קבצים או יוצרות ומשנות שמות ספריות—הן אותות בולטים לכוונה מזיקה. על ידי הדגשה, עבור כל אפליקציה שסומנה, של אילו התנהגויות דחפו את התחזית לעבר "זדונית" או "חוקית", המערכת נותנת לאנליסטים בני־אדם דרך לאשר ולסמוך על שיפוטיה ולהבין היכן דגימות ערמומיות עדיין חומקות. הניתוח הזה גם חושף מקרים שולייים: למשל, חלק ממנהלי קבצים לגיטימיים דומים לתוכנות זדוניות משום שהם מבצעים פעולות קבצים אינטנסיביות.

מה משמעות הדבר לאבטחה היומיומית

באופן פשוט, עבודה זו מראה שאפשר לבנות גלאי תוכנות זדוניות לאנדרואיד שלומד "תחושה" כללית של התנהגות רעה, שניתן לעדכנו במהירות עם רק כמה דוגמאות מאומתות של איום חדש, ונשאר אמין גם כשהתוקפים משנים את תחבולותיהם בהדרגה. בעוד שהחלק הקוונטי עדיין ניסיוני והבדיקות מסתמכות על מאגרי נתונים מסוננים, המסגרת הכוללת מצביעה לכיוון כלים עתידיים לאבטחת טלפונים שיהיו קלים יותר, מהירים יותר להתאמה ושקופים יותר לגבי הנמקה שלהם—עוזרים למגינים לעמוד בקצב נוף האיומים הנייד המתפתח במהירות.

ציטוט: Tawfik, M., Tarazi, H., Dalalah, A. et al. Few-shot android malware classification with quantum-enhanced prototypical learning and drift detection. Sci Rep 16, 10744 (2026). https://doi.org/10.1038/s41598-026-45738-0

מילות מפתח: תוכנות זדוניות לאנדרואיד, למידה בכמה דוגמאות, למידת מכונה קוונטית, סטיית קונספט, סייבר־ביטחון