Clear Sky Science · he
עיצוב, מסגרת ובחינת שומרי בטיחות עבור מסווגים בתיבה שחורה
מדוע החלטות מכונה בטוחות חשובות
ביותר ויותר תחומים, מכונות מסייעות בנהיגה, מנחות כלים כירורגיים, משגיחות על מפעלים ובודקות תשתיות קריטיות. כל המשימות האלה תלויות בתוכנה שמנתחת נתונים ובוחרת בין אפשרויות, כגון “בטוח” או “לא בטוח”. כששיקול זה שגוי, התוצאה עלולה להיות פולש שלא זוהה, אור traffic לא מזוהה או חלק תקול שלא אותר. מאמר זה בוחן כיצד להקיף תוכנת קבלת החלטות בשכבת הגנה נוספת כך שתשובות מסוכנות יסומנו ויפסלו במקום להיאמן להן בעיוורון.

ממתן תשובות מושלמות להתנהגות מהימנה
רוב המחקר בתחום הבינה המלאכותית מתמקד בשיפור דיוק המסווגים, אך גם המערכות המדויקות ביותר עדיין טועות. מומחים אנושיים גם הם שוגים, ובכל זאת אנו סומכים עליהם משום שלרוב הם יודעים מתי לבקש עזרה. המחברים טוענים שיש להנחות את מקבלי ההחלטות הממוחשבים להתנהג באופן דומה. במקום לכפות על מסווג לבחור תמיד תוית, יש לאפשר לו לומר “אני לא בטוח” ולתת למערכת הרחבה יותר להגיב בבטחה. בפועל, זה אומר להפוך תשובות שגויות ובלתי צפויות לדחיות מבוקרות שחלקים אחרים של המערכת יוכלו להתמודד איתן — למשל בהאטת כלי רכב, בקשת סיוע אנושי או מעבר למצב בטוח יותר.
הוספת מעטפת בטיחות סביב מודלים בתיבה שחורה
מסווגים מודרניים נתפסים לעתים קרובות כקופסאות שחורות: הם מקבלים נתונים ומייצרים תחזית, בעוד עבודתם הפנימית מוסתרת או מורכבת מדי לבדיקה. המעטפת המוצעת, בשם SPROUT, יושבת סביב קופסה כזו מבלי להידרש להצצה פנימה. היא עוקבת אחר כל קלט חדש, אחר ההסתברויות שהמסווג נותן לכיתות השונות, ואיך הקלט הזה משווה לנתונים מהעבר. מתוך מידע זה SPROUT דוחקת האם תחזית נראית מהימנה מספיק להעברה הלאה, או שיש לדחותה כחשודה. הנקודה המרכזית היא שכמעט כל מסווג קיים — לתמונות או לטבלאות מספרים, בינארי או מרובת־כיתות — ניתן לעטוף כך כל עוד הוא יכול לפלט הסתברויות לכיתות.
מדידת ספק בדרכים רבות ושונות
כדי לשפוט עד כמה תחזית בטוחה באמת, SPROUT לא מסתמך על אות יחיד. במקום זאת הוא משלב מספר “מדדי אי־ודאות” שכל אחד בוחן את הספק מזווית שונה. חלקם בודקים סימנים פשוטים, כגון האם הסתברות של כיתה אחת בולטת באמת או האם ההסתברויות מפוזרות באופן אחיד. אחרים משווים את תשובת המסווג לזו של “בודקי” נוספים שאומנו על אותם הנתונים, או לתשובות שנתנו נקודות סמוכות מתוך סט האימון. מדד נוסף מנסה לשחזר את הקלט בעזרת רשת אוטואנקודר ומתייחס לשחזור לקוי כרמז שהנתונים החדשים אינם דומים לשום דבר שנראה קודם. יחד המדדים הללו יוצרים טבלה מקוצרת של מספרים אשר מודל קטן ברמה השנייה, שנקרא מכריע, ממיר להחלטה פשוטה של שמירה או דחייה.

בדיקה על פני מאגרי נתונים וסוגי מודלים רבים
החוקרים ביצעו מחקר ניסויי רחב המשתמש ב‑35 מאגרי נתונים זמינים לציבור, המכסים מתקפות רשת, זיוף ביומטרי, תקלות חומרה, חיישני אינטרנט הדברים וכמה מערכי תמונות פופולריים. הם ניסו יותר מ‑20 סוגי מסווגים, מפוקחים ולא מפוקחים, ובנו תצורות SPROUT נפרדות לנתונים טבלאיים ולתמונות. בכל מקרה מדדו כמה פעמים המסווג המקורי טעה וכמה פעמים SPROUT הצליח לדחות את הטעויות האלה לפני שהן יכלו לדלוף החוצה. במשימות מפוקחות רבות, כולל בעיות תמונה מסוימות, SPROUT הקטין באופן דרמטי את שיעור השגיאות שנותרו. במקרים מסוימים, כגון רגרסיה לוגיסטית על מאגר נתוני אבטחת רשת, הוא דחה כל טעות בודדת, והפך רכיב שלעיתים לא אמין לאחד שניתן לסמוך על פלטו כל עוד הוא לא נדחה.
איזון בין בטיחות, זמינות ועלות
כמובן, תפיסת יותר טעויות לעתים פירושה גם דחיית יותר תשובות נכונות, וכי חישוב מדדי אי־ודאות רבים מוסיף זמן ועלות משאבים. המחקר מראה ש‑SPROUT בדרך כלל מאט מסווגים מפוקחים בכ‑4 עד 5 פעמים וכי חלק מהמדדים יקרים יותר מאחרים. זה מצביע על פשרה בעיצוב: מערכות קריטיות לבטיחות עשויות לקבל עיכוב נוסף ויותר דחיות כדי להימנע מתוצאות מזיקות, בעוד יישומים רגישי זמן או מוגבלי משאבים עשויים לבחור סט מצומצם של בדיקות זולות. המחברים גם מזוהים אילו מדדים חשובים ביותר בפועל, ונותנים הכוונה כיצד לבנות גרסאות קלות יותר בעת הצורך.
מה משמעות הדבר לפרקטיקה של AI בטוח
באופן ברור, המסר המרכזי של המאמר הוא שעלינו להפסיק לצפות להחלטות מכונה חסרות רבב ובמקום זאת לדרוש שהמערכות שלנו ידעו מתי הן עלולות לטעות. SPROUT מציע מתווה פרקטי לעטיפת מסווגי טקסטורה בתיבה שחורה במגן המודע לספק שמדחה פלטים חשודים לפני שהם גורמים נזק. למרות שההגנה הזו דורשת חישוב נוסף ולעיתים מאבדת תחזיות תקפות, התוצאות מראות שהיא יכולה להפחית באופן ניכר את הסיכוי שטעות מסוכנת תחלוף שלא בשים לב, ובכך להפוך קבלת החלטות מבוססת AI למהימנה יותר בעולם המציאותי.
ציטוט: Khokhar, F.A., Zoppi, T., Cennini, L. et al. Design, framework and benchmark of safety monitors for black-box classifiers. Sci Rep 16, 15626 (2026). https://doi.org/10.1038/s41598-026-45091-2
מילות מפתח: בטיחות AI, אי־ודאות, AI מהימן, מוניטור למידת מכונה, מסגרת SPROUT