Clear Sky Science · he
מסגרת חישובית היברידית סקיילבילית עם אופטימיזציה בהשראת ביולוגיה לזיהוי כתובות URL מזיקות בממדים גבוהים
מדוע חשוב לגלות קישורים מזיקים
הקישורים שעליהם אנו לוחצים מדי יום עלולים לפתוח בשקט דלת להונאות, לגניבת נתונים ולזיהומים במחשבים. עברייני סייבר ממציאים כל הזמן טריקים חדשים, ולכן רשימות חסימה פשוטות ומסננים מבוססי‑כללים בדרך כלל מפספסים התקפות חדשות. מחקר זה בוחן דרך חכמה יותר להבחין בין אתרים בטוחים למזיקים על‑ידי שילוב של כמה סוגי מודלים מתמטיים עם אסטרטגיות חיפוש בהשראת הטבע, במטרה לשמור על זיהוי מדויק ומובן לצוותי אבטחה.
מכללים פשוטים להגנות חכמות יותר
הגנות מסורתיות כנגד אתרים מזיקים מסתמכות על בדיקה האם קישור מופיע ברשימת שחורים או מתאים לתבניות ידועות בטקסט או בתוכן העמוד. שיטות אלו יכולות לעצור חלק מהאיומים, אך נכשלים בקלות כאשר התוקפים מסווים כתובות, משנים אותן לעתים קרובות או מחקים אתרים מהימנים. המאמר טוען שהטבע המשתנה במהירות של פשיעה מקוונת דורש כלים גמישים היכולים ללמוד מהנתונים, להעריך את מהימנות ההחלטות שלהם ולחשוף אילו פרטי כתובת או תעבורה הם בעלי המשקל הגדול ביותר.

איך עובדת מסגרת הזיהוי החדשה
החוקרים בונים מסגרת זיהוי "היברידית" שממזגת שלושה סווגים שונים עם שיטות כוונון בהשראת הטבע. שני הסווגים, שנקראים ניתוח מפל שָׁרְטִי ליניארי וקוואדרטי (linear and quadratic discriminant analysis), טובים בהצבת גבולות ברורים בין תעבורה בטוחה ללא בטוחה באמצעות צורות מתמטיות פשוטות. השלישי, שנקרא CatBoost, הוא שיטה חזקה מבוססת עצים שיכולה להתמודד עם סוגים מעורבים של מידע, כגון מספרים שמתארים כמה ארוך ה‑URL, כמה תווים בלתי שגרתיים הוא מכיל, או איך מתנהגת תעבורת הרשת שלו. במקום להסתמך על הגדרות ברירת מחדל, המחקר משתמש בשתי אסטרטגיות חיפוש המדמות אמא דואגת וציפור צייד כדי לבחון אפשרויות פרמטרים רבות ולשמור את אלה שעובדות הכי טוב.
מה המודלים לומדים מהרמזים באינטרנט וברשת
הקבוצה משתמשת במאגר נתונים מהעולם האמיתי של 1,781 כתובות אתרים, הכולל גם כתובות תמימות וגם מזיקות, שכל אחת מתוארת על‑ידי פרטים שנלקחו מרשומות רישום, תגובות שרת ופעילות רשת. הם בוחנים תחילה אילו חתיכות מידע באמת מסייעות להבחין בין אתרים טובים לרעים. מבחנים סטטיסטיים מראים שמספר תכונות פשוטות בולטות: כמה סמלים מיוחדים מופיעים בקישור, כמה ארוך ה‑URL, איך מוגדרת קידוד הטקסט, כמה פעמים יש לבצע חיפוש שם המתחם, וכמה מכונות מרוחקות נתקשרות עם האתר. על‑ידי התמקדות ברמזים מרכזיים אלה, המסגרת נמנעת מהטשטוש של רעשים והופכת את החלטותיה לקלות יותר לפרשנות.
חיפוש בהשראת הטבע משפר את הכלים
הלב של המחקר הוא השימוש באלגוריתמים חיפוש בהשראת ביולוגיה לכוונון שלושת הסווגים. אחד המאופטימייזרים מחקה שלבים של חינוך, עצה וחינוך מחדש, מעודד "משפחה" דיגיטלית של פתרונות מועמדים לחקור באופן רחב ואז ללטש את האפשרויות הטובות ביותר. האחר מעתיק את אופן שבו דלקה (osprey) מוצאת ומשאירה טרף, סורקת תחילה ברחבה ואז מתרכזת סביב אזורים מבטיחים. יחד, שיטות אלה מתאמות הגדרות פנימיות כמו מורכבות עצי ההחלטה או עוצמת ההחלקה של הגבולות בין המחלקות. ניסויים עם בדיקות חוצי‑אימות חוזרות מראים שכל סווג נהנה מכוונון זה, אך דגם CatBoost המכוונן, הקרוי CAMA, מציג את הביצועים הטובים ביותר.

תוצאות חזקים ותובנות ברורות יותר
במהלך בדיקות מרובות הדגמים ההיברידיים גוברים על הגרסאות הפשוטות יותר במדדי דיוק, דיוק חיובי, זימון ומדדים קשורים שמאזנים אי‑גילוי איומים מול אזעקות שווא. הדגם המוביל מסווג נכון בערך 96 אחוז מהאתרים, ובאותו הזמן שומר על מספר נמוך של אתרים בטוחים שנחסמו בטעות. כדי למנוע שהמערכת תהפוך לתיבה שחורה מסתורית, המחברים מיישמים שיטה שמקצה לכל חיזוי "קרדיטים" המראים כמה כל תכונה דחפה את ההחלטה לעבר בטוח או לא בטוח. זה מגלה, למשל, שמספר גבוה של סימנים מוזרים והתנהגות בלתי רגילה בחיפוש שם המתחם מהווים אזהרות חזקות לסכנה.
מה המשמעות של זה לבטיחות יומיומית ברשת
ללא‑מומחים, המסר הוא שמעט רמזים נבחרים היטב לגבי כתובות אינטרנט ותעבורתן, שנבדקים על‑ידי מספר מודלים משתפי פעולה ומכוונים באמצעות רעיונות שאולצו מהטבע, יכולים לסמן אתרים מסוכנים באמינות גבוהה. למרות שהמחקר משתמש במאגר נתונים בצורת בינונית ועדיין דורש בדיקה על זרמי תעבורה רחבים ומתקדמים יותר, הוא מראה ששילוב של גיוון, חיפוש קפדני והסברים ברורים יכול להפוך הגנות אוטומטיות לחדות ואמינות יותר.
ציטוט: Liu, H. A scalable hybrid computational intelligence framework with bio inspired optimization for high dimensional malicious URL inference. Sci Rep 16, 14842 (2026). https://doi.org/10.1038/s41598-026-44851-4
מילות מפתח: זיהוי כתובת URL מזיקה, ביטחון סייבר, למידת מכונה, אופטימיזציה בהשראת ביולוגיה, ניתוח תעבורת רשת