מערכות בינה מלאכותית מודרניות שמונעות על‑ידי רשתות עצביות עמוקות מהימנות כיום לזהות הולכי רגל ברכבים אוטונומיים, לזהות פרצופים בתמונות ולעזור לרופאים לקרוא בדיקות רפואיות. עם זאת, למערכות אלה יש נקודת תורפה מפתיעה: שינויים זעירים ומחושבים בתמונה — בלתי ניתנים לזיהוי בעיני האדם — יכולים לגרום להן לתת תחזיות שגויות באופן קיצוני. המחקר במאמר זה מתמודד עם פגיעות זו, ומציג שיטת חדשה ליצירת תמונות “עוינות” שיכולות להטעות מספר מודלים שונים בו־זמנית, מה שמספק הן אזהרה חדה יותר לגבי אבטחת ה‑AI והן כלי חזק לבחינת עמידות מערכות עתידיות.
כיצד תוקפים מטמיעים שגיאות ברשתות עצביות היום
רוב שיטות ההתקפה הקיימות פועלות על ידי הזזה של כל פיקסל בכיוון שמגדיל את פונקציית ההפסד שבשימוש האימון של המודל. כאשר לתוקף ידיעה מלאה על המודל — מבנהו ופרמטריו — אסטרטגיה זו של "תיבה לבנה" יעילה מאוד. אבל בעולם האמיתי לרוב ניצבים מול מודל "בתיבה שחורה" שמופעל על ידי חברה או בית חולים ושפרטיו הפנימיים חסויים. כדי לתקוף אותו צריך ליצור תמונות עוינות על מודל תחלופה ולקוות שגם יטעו את המערכת הנסתרת — תכונה שנקראת יכולת העברה. טריקים מבוססי גרדיאנט סטנדרטיים נוטים להתאים מדי למודל התחלופה: הם מנצלים מאפיינים ספציפיים של גבול ההחלטה של אותו מודל, ולכן הצלחתם צונחת חזק כאשר אותן תמונות נשלחות לארכיטקטורות שונות או למודלים מחוזקים באמצעות אימון עוין מותך.
מבט על מה שהמודל מעניק לו תשומת לב
המחברים מתחילים מתצפית פשוטה אך חזקה: רשתות עצביות שונות שאומנו על אותו מערך נתונים נוטות "להסתכל" על חלקים דומים בתמונה כאשר הן נותנות את אותה תחזית. המיקוד הפנימי הזה ניתן לייצוג כמפת חום שמראה אילו פיקסלים תורמים הכי הרבה להחלטה — סוג של מפת קשב מכונתית. גם כאשר הארכיטקטורות שונות, דפוסי הקשב האלה דומים באופן בולט עבור אותה כניסה ותווית. המאמר ממסד תבנית משותפת זו כמאפיין סמנטי קשבתי (Attentional Semantic Property, ASP), תיאור כמותי של עד כמה כל פיקסל תומך בקטגוריה מסוימת. במקום להתייחס למפות הקשב ככלי ויזואליזציה בלבד, המחברים הופכים את ה‑ASP לעצם שניתן לאופטימיזציה ישירה.
להשמיד משמעות משותפת במקום לרדוף אחרי תוויות Figure 1.
בהתבסס על רעיון זה, המאמר מציג את ההתקפה הסמנטית הקשבתית (Attentional Semantic Attack, ASA). במקום לדחוף תמונה כדי להגדיל את הפסד המיון הרגיל, ASA מחפשת שינויים פיקסליים זעירים שמעוותים ספציפית את ה‑ASP. מטרת ההתקפה היא להפחית את הקשב המוקדש למחלקה הנכונה תוך הגדלת הקשב למחלקה אחרת שגויה. כדי להימנע מהתאמה יתר לתווית חלופית יחידה, ASA בוחרת לעתים קרובות את המחלקה האחרת באופן אקראי בכל שלב אופטימיזציה, וכופה על ההפרעה לשבש דפוסי ראיות כלליים יותר במקום להחליף רק את שתי התחזיות הראשיות. מבחינה טכנית, ASA מחשבת מפות רלוונטיות פיקסל‑אחר‑פיקסל באמצעות שיטה הנקראת הפצת רלוונטיות שכבתית (Layer‑wise Relevance Propagation), ואז מגדירה פונקציות הפסד שמודדות עד כמה מפות אלה דומות או שונות לפני ואחרי ההפרעה. מעקב איטרטיבי אחרי הגרדיאנט של הפסד מבוסס קשב זה מייצר "הפרעות קשבתיות" שמעצבות מחדש את מה שמספר מודלים רואים כחשוב בתמונה.
מדידת והשוואת הנזק
כדי לבחון את שיטתם, המחברים יוצרים תמונות עוינות על מודל ידוע אחד ומעריכים אותן על עוד תריסר מודלים, כולל רשתות קונבולוציה סטנדרטיות, מודלים מחוזקים באימון עוין ומשדרים חזות מודרניים (Vision Transformers). בניסויים נרחבים מבוססי ImageNet, ASA משיגה בעקביות שיעורי הצלחה גבוהים יותר מאשר מגוון מתחרים שמסתמכים על תנועות גרדיאנט חכמות, טרנספורמציות קלט או מניפולציה בתכונות ביניים. המאמר גם מציע דרך חדשה לכמת עד כמה התקפה "חזקה", שנקראת שינוי ביטחון תווית (Label Confidence Change, LCC). במקום רק לבדוק האם התווית החזויה משתנה, LCC מודד עד כמה ירד הביטחון של המודל במחלקה הנכונה המקורית. LCC גבוה מצביע על כך שהתמונה נפגמה לעומק באופן שכנראה יעבור גם למודלים לא נראים, ודוגמאות ASA מציגות LCC משמעותי גבוה יותר משיטות מתחרות.
להביט פנימה במנגנון ההתקפה Figure 2.
השוואות ויזואליות של מפתות קשב מסבירות מדוע ASA מועברת היטב. תחת התקפות מסורתיות, אזורי המיקוד הבהירים בתוך הרשת משתנים רק במעט ככל שהאיטרציות מתקדמות, גם כאשר התחזית הסופית שגויה; התפיסה הבסיסית של המודל לגבי מיקום האובייקט נשארת שלמה, וזה מגביל עד כמה ההפרעה מתכללת. תחת ASA, יישום חוזר של הפרעות קשבתיות משכתב באופן רדיקלי את המפות הללו: הקשב מתייבש מהאובייקט האמיתי ומיגר לאזורים ברקע או למבנים לא רלוונטיים. סידור כולל זה של המיקוד הפנימי מופיע הן במודלים רגילים והן במודלים חסונים, וניתן להעצימו עוד יותר על‑ידי שילוב ASA עם טריקים קיימים לשיפור כמו שינוי גודל אקראי של הקלט או קבוצת דגימה של מודלי מקור.
מה משמעות הדבר עבור AI בטוח יותר
במונחים פשוטים, המאמר מראה שמערכות הראייה של היום חולקות "תחושת משמעות" משותפת לגבי מה חשוב בתמונה — ושרעש ממוקד היטב יכול לבלבל משמעות משותפת זו במספר מודלים שונים בו‑זמנית. על ידי התקפה ישירה על הקשב ולא רק על ציוני התווית הסופיים, ASA מייצרת תמונות עוינות שקשה יותר להגנה עכשווית להתגבר עליהן ומהימנות יותר לביצוע מבדקי עומס על מערכות בעולם האמיתי. עבור המגינים, הדבר מדגיש שלהגן על AI ידרוש לא רק שמירה על הפלטים אלא גם הגנה על מסלולי הקשב הפנימיים שמבססים את הבנת המודל את העולם.
ציטוט: Wang, P., Liu, J. Attentional semantic attack for enhancing adversarial samples transferability.
Sci Rep16, 10957 (2026). https://doi.org/10.1038/s41598-026-45207-8
מילות מפתח: דוגמאות עוינות, בטיחות ברשתות עצביות, מפות קשב, התקפות בתיבה שחורה, מיון תמונות