Clear Sky Science · he

מסגרת סיווג פישינג מבוססת למידה עמוקה לזיהוי מדויק באמצעות בינה לאיתור URL מותאמת

2026-04-02 · חזרה לאינדקס

מדוע קישורי רשת מזויפים הם בעיה הולכת וגדלה

כל יום אנו לוחצים על קישורים באימיילים, בהודעות ובתוצאות חיפוש בלי להרהר פעמיים. מאחורי כמה מהקישורים האלה, עם זאת, מסתתרים מלכודות מתוכננות לגניבת סיסמאות, פרטי בנק או נתונים פרטיים אחרים. התוקפים ממשיכים לשנות את מראה כתובות האינטרנט המזויפות, מה שמקשה על מגננות מסורתיות כמו רשימות שחורות להדביק את הקצב. במחקר זה מוצג דרך חדשה לזהות קישורים מסוכנים באופן אוטומטי ובזמן אמת, במטרה להעניק למשתמשי אינטרנט וארגונים מגן חזק יותר מפני עוקצי רשת.

כיצד מתכססים ההונאים המקוונים מול העיניים

התקפות פישינג מודרניות נדירות מסתמכות על שגיאות ברורות באיות או על העתקים גסים של אתרי בנק. במקום זאת הן משתמשות בטריקים כמו קישורים קצרים מאוד, דומיינים שמשתנים במהירות ונקודות קצה שמראות כאילו הן מאובטחות כדי להיראות מהימנות. רבות מהכלים הקיימים לזיהוי מסתמכים על חוקים נוקשים או רשימות של אתרים ידועים כמזיקים. אלה יכולים לתפוס הונאות ישנות אך לעתים מפספסים התקפות חדשות, המכונות התקפות יום-אפס, ואף מסמנים בטעות אתרים יוצאי דופן אך חסרי נזק. הכותבים טוענים שהאינטרנט זז עכשיו מהר מדי עבור כללים שנכתבו ביד בלבד, ושעל ההגנות ללמוד דפוסים ישירות מהנתונים.

להדריך מערכת "לקרוא" כתובות אינטרנט

המאמר מציג גישה שנקראת Adaptive Deep URL Intelligence Network, או ADUIN, המתייחסת לכל כתובת אינטרנט כמקור עשיר לרמזים. במקום להוריד דפי אינטרנט שלמים, המערכת מתמקדת בשלושה סוגי מידע. היא בוחנת את הטקסט של הקישור עצמו, כגון אורכו, תמהיל התווים ומילים חשודות; בודקת עובדות על המארח של האתר, כולל כמה זמן הדומיין קיים והאם לכתובת האינטרנט שלו יש מוניטין רע; ולומדת את מבנה הקישור, כמו כמה תת-דומיינים ותיקיות הוא מכיל או כמה פעמים הוא מעביר מחדש (redirect). קטעים אלה מומרים למספרים ומצורפים לתיאור קומפקטי של כל URL.

Figure 1. כיצד ניתוח חכם של URL מסנן קישורים מזיקים לפני שהם מגיעים לדפדפני המשתמשים.

בחירת הרמזים הסגוליים ביותר

איסוף סוגים רבים של איתותים עלול לטבוע את המערכת ברעש. כדי למנוע זאת, החוקרים יצרו שלב לבחירת מאפיינים שמדרג כל רמז לפי מידת עזרתו בהפרדה בין קישורים בטוחים ללא בטוחים. בדיקות סטטיסטיות מסירות מדידות שמכפילות בעיקר מדידות אחרות, בעוד שציונים מבוססי-למידה מדגישים את אלה שמקטינים טעויות בצורה חדה כשנמצאים. מתוך סט רחב במקור, המערכת שומרת בערך 50 מהתכונות המידע-טריות ביותר. הסינון הזה מאיץ את הגילוי, מקטין את הסיכוי להתאמת יתר לתכונות ספציפיות של נתוני האימון ועדיין שומר על הדפוסים המבדילים בצורה הטובה ביותר בין ניסיונות פישינג לתעבורה לגיטימית.

לאפשר ללמידה עמוקה לזהות דפוסים מוסתרים

ברגע שהתכונות השימושיות ביותר נבחרות, הן מוזנות אל רשת עצבית עמוקה שמכילה כמה שכבות של "נוירונים" ואלגוריתם תשומת לב (attention). השכבות האלה לומדות קשרים מורכבים בין אספקטים שונים של URL, כמו כיצד מילים מסוימות משתלבות עם היסטוריית אחסון מסוימת או מבנה נתיב ספציפי. במהלך האימון הרשת נחשפת למאות אלפי קישורים אמיתיים ומזיקים ומכוונת בהדרגה את המשקלים הפנימיים שלה כדי למזער טעויות. חשוב שהמערכת תוכננה כדי להתעדכן כאשר זורמים אליה מאגרי URL חדשים, כך שהיא יכולה להסתגל לסגנונות התקפה חדשים בלי להיבנות מחדש מהתחלה.

Figure 2. כיצד רשת עצבית מרובדת ממירה רמזי URL להפרדה ברורה בין קישורים בטוחים ופישינג.

כיצד המגן החדש מתפקד

המחברים בחנו את ADUIN על אוסף ציבורי גדול של כתובות URL לפישינג ולגיטימיות שנאספו ממספר מקורות לאורך זמן. הם חלקו את הנתונים כך שהקישורים החדשים ביותר, שלא נראו במהלך האימון, שימשו כדוגמה להתקפות יום-אפס בעולם האמיתי. בהשוואה למספר בסיסים חזקים של למידת מכונה, המערכת החדשה השיגה כ-95% דיוק כולל, זיהתה נכונה כ-93% מהקישורים שסומנו כפישינג וגילתה כ-92% מהכתובות לפישינג שלא נראו קודם. במקביל, רק כ-3.5% מהקישורים חסרי הפגע סומנו בטעות כמסוכנים, וכל URL יכול לעבור עיבוד בכ-1/5 השנייה גם תחת עומס כבד, מה שמעיד שהשיטה מתאימה לשערים בעלי תנועה גבוהה ולרשתות ארגוניות.

מה המשמעות עבור גלישה יומיומית

עבור קהל שאינו מומחה, המסר המרכזי הוא שבלמידה זהירה כיצד בנויה כתובת אינטרנט ניתן לחשוף לא מעט לגבי כוונותיה. על ידי שילוב רמזים קטנים רבים מטקסט הקישור, מהמארח ומהמבנה, ובאמצעות מתן אפשרות למערכת לומדת להתאים עצמה תמידית, המסגרת המוצעת יכולה לתפוס הן הונאות מוכרות והן חדשות שמעולם לא הופיעו ברשימות שחורות. אף שהיא אינה תרופה בודדת לפישינג, ADUIN ממחישה כיצד ניתוח חכם ומהיר של URL יכול להפוך לשכבה חשובה בהגנה על משתמשי דואר אלקטרוני, קוני אינטרנט וארגונים מפני הולכת שולל למסירת סודותיהם.

ציטוט: Gobinath, R., Manikandan, S. Deep learning-based phishing classification framework for accurate detection using optimized URL intelligence. Sci Rep 16, 15794 (2026). https://doi.org/10.1038/s41598-026-46481-2

מילות מפתח: כתובות URL לפישינג, למידה עמוקה, אבטחת סייבר, ניתוח URL, אבטחת רשת