Clear Sky Science · he
התנגשויות מדויקות של תכונות ברשתות ניורונים
כאשר תמונות שונות מטעות מכונה חכמה
מערכות בינה מלאכותית מודרניות יכולות לזהות פנים, לקרוא סריקות רפואיות ולהנחות מכוניות אוטונומיות. כבר ידוע שניתן להטעות אותן על ידי שינויים זעירים ומחושבים בתמונה. המאמר הזה מציג תופעה מפתיעה עוד יותר: אותן רשתות עלולות להיות עיוורות לשינויים גדולים וברורים, ולטפל בתמונות שונות לחלוטין כאילו היו זהות. הבנת איך ומדוע זה קורה קריטית אם אנו רוצים מערכות בינה מהימנות באמת.

מעדכונים זעירים לנקודות עיוורון גדולות
רשתות ניורונים עמוקות מניעות פריצות דרך היום בראייה, בשפה ובתחומים רבים אחרים. מחקרים קודמים על דוגמאות עוינות חשפו ששינוי כמעט בלתי נראה בתמונה יכול לגרום לרשת לסווג אותה בצורה שגויה בביטחון גבוה. עבודות עדכניות גילו את הבעיה ההפוכה: חלק מהרשתות כמעט ואינן מגיבות לשינויים גדולים וברורים ועדיין מפיקות תחזיות כמעט זהות. במקרים אלה, התכונות הפנימיות המופקות משתי תמונות שונות ״מתנגשו״ — כלומר, הרשת מייצגת אותן בצורה כמעט זהה. המחקר הזה מרחיב את הרעיון הרבה יותר, ומוכיח שלרשתות נפוצות אין רק התנגשויות מקורבות אלא יכולות להיות התנגשויות תכונה מדויקות, שבהן שתי קלטות נבדלות ממופותות לשידורים פנימיים זהים לחלוטין.
איך התנגשויות נוצרות בתוך רשת
כדי להסביר את ההתנגשויות הללו, המחברים מביטים מתחת למכסה של רשתות ניורונים ומתמקדים במטריצות המשקל שלהן — המספרים המאומנים שמחברים שכבה לשכבה. התנגשויות תכונה מתרחשות כאשר שני קלטים שונים מייצרים את אותה תוצאה בשכבה כלשהי; מרגע שזה קורה, כל השכבות הבאות רואות את אותו הדבר ולכן אינן יכולות להבחין בין הקלטים. במונחים מתמטיים, זה קורה כאשר ההפרש בין שני הקלטים שוכן ב"מרחב האפס" של משקלי השכבה: כיוונים במרחב הקלט שהשכבה מתעלמת מהם לחלוטין. המחברים מראים שכל אימת שמטריצת משקל כוללת ערך עצמי אפס או ממפה מממד גבוה לממד נמוך יותר, כיוונים כאלה חייבים להתקיים. מאחר שמרבית הארכיטקטורות בעולם האמיתי, כולל מודלים פופולריים לסיווג, סגמנטציה וזיהוי עצמים, משתמשות בהרבה שכבות כאלה, התנגשויות אינן מקרים שוליים נדירים אלא תכונה כמעט בלתי נמנעת של רשתות אלה.
דרך חדשה לבניית קלטים מתנגשים
בהסתמך על התובנה הזו, המאמר מציג מתודולוגיה מעשית שנקראת "חיפוש מרחב האפס". במקום להסתמך על ניסוי וטעיה או טריקים מבוססי גרדיאנט, שיטה זו משתמשת ישירות במרחב האפס של מטריצת המשקל הראשונה. בהתבסס על כל תמונה, המחברים מחשבים וקטור שהשכבה הראשונה מתעלמת ממנו, ואז מוסיפים וקטור זה במשקל מוסדר לתמונה. כיוון שהכיוון הזה בלתי נראה לשכבה, התכונות הפנימיות — וגם התחזית הסופית — נשארות בדיוק אותן התוצאות, גם אם התמונה עצמה נראית מעוותת במידה ניכרת לעין אנושית. הרעיון מתרחב גם לשכבות קונבולוציה ובעקרון לשכבות מאוחרות יותר. המחברים סוקרים מודלים סטנדרטיים רבים ומוצאים שלרוב יש שפע של כיוונים שמתעלמים מהם, כלומר שניתן להפיק מספר רב של תמונות מתנגשות בצורה זו עבור מגוון רחב של משימות.

סיכונים נסתרים לדמיון, הסברים וביטחון
להתנגשויות תכונה מדויקות יש השלכות מרחיקות לכת. שתי תמונות עם תכונות מתנגשות לא רק ישתפו את אותה תחזית, אלא לעתים קרובות גם את מפת ההסברים שיופקו על ידי כלי פרשנות פופולריים. זה יכול לגרום לתמונה בלתי מזוהה ומעוותת להיראות נתמכת באותה מידה כמו תמונה נקייה, ובכך לערער את האמון בשיטות ההסבר. הבעיה משפיעה גם על מדדי דמיון המבוססים על תכונות שמספקות רשתות ניורונים: מדדים כאלה עלולים לשפוט תמונה מושחתת מאוד כ"זהה" למקורית מאחר שהתכונות תואמות בדיוק, אף כי מדדי פיקסלים פשוטים יזהירו על הבדלים גדולים. לבסוף, חיפוש מרחב האפס ניתן לשילוב עם התקפות עוינות סטנדרטיות, ויהפוך לדרכן של תמונות עוינות רבות ושונות שהן כולן מניבות את אותה תחזית שגויה ונשארות בתוך גבולות ההפרעה המקובלים — מצב שמעמיק את הדאגות הביטחוניות הקיימות.
מה משמעות הדבר לבניית בינה בטוחה יותר
במילים פשוטות, עבודה זו מראה שרשתות ניורונים של היום לעתים קרובות זורקות מידע בדרכים צפויות, ומשאירות כוונים שלמים במרחב הקלט שלא משפיעים כלל על החלטותיהן. תוקפים יכולים לנצל נקודות עיוורון אלה כדי ליצור תמונות ביזאריות או עוינות שהרשת מתייחסת אליהן זהות לתמונות רגילות. המחברים מציעים להשתמש בספירות פשוטות של כיוונים שמתעלמים מהם כדרך להעריך עד כמה מודל עשוי להיות פגיע, וטוענים שרשתות צרות יותר ומסודרות היטב עם מרחבי אפס קטנים יותר יכולות להיות חסונות יותר. אף שעדיין נדרש הרבה בדיקה מעשית, המסר המרכזי ברור: אם אנו רוצים בינה מלאכותית אמינה, עלינו לשים לב לא רק למה שהרשתות מגיבות אליו, אלא גם למה שהן מתעלמות ממנו.
ציטוט: Ozbulak, U., Rao, S., De Neve, W. et al. Exact feature collisions in neural networks. Sci Rep 16, 10139 (2026). https://doi.org/10.1038/s41598-026-40605-4
מילות מפתח: רשתות ניורונים, דוגמאות עוינות, התנגשויות תכונה, חוסן מודל, חיפוש מרחב אפס