Clear Sky Science · he
היבריד BERT‑spaCy ל‑NLP ומערכת CTI אדפטיבית משופרת באמצעות בלוקצ׳יין לחילוץ IOC וחיזוי איומים
מדוע הגנה חכמה יותר בסייבר חשובה
החיים היומיומיים תלויים היום במערכות דיגיטליות — מתיקי חולים ובנקאות מקוונת ועד בתים חכמים ורובוטים תעשייתיים. עם זאת, מתקפות סייבר גדלות ומתקדמות מהר יותר ממה שהגנות רבות מסוגלות להתמודד איתו. מאמר זה מציג גישה מתקדמת אך מעשית למידע מודיעיני על איומי סייבר שמטרתה לזהות מתקפות מוקדם יותר, ללמוד מאירועים חדשים באופן אוטומטי ולאפשר לארגונים לשתף סימני אזהרה בבטחה ללא חשש מהתחזות או שינוי.

הפיכת רמזים מבולגנים לאיתותי אזהרה ברורים
מתקפות מודרניות משאירות עקבות מפוזרים במיילים, בלוגי אבטחה, בפרסומים ברשתות חברתיות ובדוחות טכניים. עקבות אלו, הידועות כאינדיקטורים לפיצוח (indicators of compromise), כוללות כתובות אינטרנט חשודות, מספרי IP, שמות תוכנות זדוניות וטביעות אצבע של קבצים. המחברים בונים מנוע ניתוח טקסט היברידי שמאגד שלוש טכניקות: תבניות מעוצבות ידנית לפריטים בעלי מבנה גבוה, ערכת כלים לשפה מהירה (spaCy) לטיפול בטקסט כללי ומודל למידה עמוקה חזק (BERT) להבנת הקשר. בצוותא, כלי אלה מסוגלים לחלץ רמזי איום שימושיים מטקסט לא-מובנה עם דיוק של כ‑95%, גם כאשר השפה רועשת או בלתי פורמלית.
להדריך מכונות לזהות ולהסתגל למתקפות
רמזים מחולצים אינם מספיקים; המערכת חייבת להחליט האם אירוע סביר שייך לקטגוריה בלתי מזיקה או מסוכן. לשם כך, המסגרת משתמשת אנסמבל של מודלים ללמידת מכונה, כולל BERT, רשת חוזרת (LSTM) ושיטה הסתברותית פשוטה יותר. לכל מודל יש יתרונות שונים — הקשר עמוק, הבנת רצפים או עמידות על דגימות קטנות — ודעותיהם משולבות בהצבעה משוקללת לפי ביטחון. המערכת מעוצבת להמשיך ללמוד: כאשר דוגמאות מתוייגות חדשות מתקבלות, היא מעדכנת פרמטרים פנימיים מבלי להתחיל מאפס. במהלך שנת פעולה מדומה, גישה אדפטיבית זו מעלה את דיוק הגילוי מ‑75% ל‑93% ומצמצמת אזעקות שווא, במיוחד בנתונים בעלי נטייה שבהם מתקפות אמיתיות נדירות.
עיגון האמון ברישום שלא ניתן לשינוי
בעיה מתמשכת בהגנת סייבר היא אמון: ארגונים עלולים להסס לשתף מידע על איומים אם הם חוששים שהוא עלול להשתנות, להיות מנוצל לרעה או להיות מוטל בספק מאוחר יותר. כדי להתמודד עם זאת, המסגרת מוסיפה יומן קל משקל בהשראת בלוקצ׳יין. כל דוח מעובד — הרמזים שחולצו, פסק דינו של המערכת וזמן התצפית — נחתם לתוך בלוק קריפטוגרפי המקושר לבלוק הקודם, ויוצר שרשרת ביקורת שקשה מאוד לשכתב בשקט. במבחנים, זיהוי שינוי מכוון בשרשרת התגלה באופן אמין. מאחר שהעיצוב מוקפד ופועל על צומת יחיד, הוא מוסיף רק מספר מילישניות לכל רשומה, ומשאיר את המערכת מהירה דיו למרכזי מבצעי אבטחה העמוסים.

בדיקת אמינות בסביבות דיגיטליות שונות
הגנות בסייבר לעתים קרובות עובדות היטב על מאגר נתונים אחד אך נתקעות כשהסביבה משתנה. לכן המחברים בודקים את המערכת שלהם על שני אוספי תעבורת רשת נפוצים, השונים בסוגי ודפוסי המתקפה. הם מציגים "מדד העמידות חוצה‑מאגרי" כדי למדוד עד כמה מודל מבצע בעקביות כאשר הוא מועבר בין מאגרים. רכיב ה‑BERT קוטף ציון כמעט מושלם בסקאלה זו, עולה במעט על LSTM ומדגים עליונות ברורה על פני שיטות מסורתיות יותר. בדיקות סטטיסטיות מפורטות, כולל סימולציות נרחבות וניתוח גודל אפקט, מראות שהשיפורים הללו אינם סבירים שנובעים במקרה ונשארים יציבים בתנאים רעשיים ולא אחידים.
מה זה אומר לאבטחה היומיומית
בקיצור, עבודה זו מראה כיצד להפוך דוחות כתובים בידי אדם ונתחי תעבורת רשת גולמיים למערכת אזהרה חיונית ושקופה בזמן אמת. על‑ידי שילוב של הבנה שפתית מתקדמת, למידה אדפטיבית ויומן שקוף החשוף לשינוי, המסגרת מזהה איומים בדיוק גבוה יותר ומגיבה מהר יותר — מצמצמת את זמן העיבוד לכל חבילה של דוחות בכ‑כחצי — ומשמרת היסטוריה אמינה של מה שנצפה והוחלט. עבור בנקים, בתי חולים, אתרים תעשייתיים וסביבות אינטרנט של הדברים, מערכת כזו יכולה לספק עמוד שדרה משותף ושקוף להגנה סייבר — מערכת שמשתפרת ככל שמתגלים איומים חדשים, במקום להמתין שהקבוצות הסטטיות יתפסו את הפער.
ציטוט: Mishra, S., Alfahidah, R.A. & Alharbi, F. BERT-spaCy hybrid NLP and blockchain-enhanced adaptive CTI for IOC extraction and threat prediction. Sci Rep 16, 8147 (2026). https://doi.org/10.1038/s41598-025-34505-2
מילות מפתח: מידע מודיעיני על איומי סייבר, זיהוי תוכנות זדוניות, אבטחת בלוקצ׳יין, למידת מכונה, חדירת רשת