Clear Sky Science · he

SSG–CAM: שיפור האינטראפרטביליות הוויזואלית באמצעות גרדיאנטים מסדר שני מעודנים ומיזוג רב-שכבתי אבולוציוני

2026-01-31 · חזרה לאינדקס

מדוע חשוב לראות מה קורה בתוך ה-AI

מערכות זיהוי תמונה מודרניות יכולות לאתר גידולים, שלטי תנועה או טפילים זעירים בתאי דם במהירות על-אנושית — אבל הן לעתים נדירות מראות לנו בדיוק למה קיבלו החלטה מסוימת. התנהגות זו של "קופסה שחורה" מטרידה במיוחד ברפואה ובתחומים קריטיים לבטיחות, שבהם ניחוש שגוי עלול להיות בעל השלכות חמורות. המאמר מציג שיטה חדשה להבהרת ההסברים הוויזואליים של מודלי למידת עומק באופן ברור ואמין יותר, כדי לעזור לאנשים לראות אילו חלקים בתמונה אכן הובילו את בחירת המערכת.

ממפות חום מרוחקות להסברים חדים יותר

משפחת כלים פופולרית בשם מפות הפעלות מחלקה, או CAM, הופכת את פעולת הרשת העמוקה למפות חום צבעוניות שמוטמעות על התמונה המקורית. אזורים בהירים מצביעים על המקומות שבהם המודל "הסתכל" כדי להחליט, למשל, שהתמונה מכילה ציפור או תא חולה. שיטות CAM קיימות רבות המשתמשות לעתים בקריאות גרדיאנט פשוטות משכבה ראשונה ברשת. אותות אלה עלולים להיות רעשניים או "רוויים" — כלומר מפסיקים להשתנות גם כאשר פרטי התמונה עדיין חשובים. כתוצאה מכך, מפות החום עלולות להאיר חתיכות גדולות מהרקע, להחמיץ פרטים עדינים או להעניק הסברים לא עקביים משכבה לשכבה.

מבט שני חלק ורגיש יותר על מה שהרשת רואה

המחברים מציעים את Smooth Second-Order Gradient CAM, או SSG–CAM. במקום להסתמך רק על הזינוק הראשון של הגרדיאנטים, SSG–CAM בוחנת גם כיצד הגרדיאנטים משתנים בעצמם — המידע מסדר שני. שכבת רגישות נוספת זו מסייעת לגלות אילו תכונות הן אכן המכריעות בהחלטת הרשת, ומפחיתה את הסיכון שאבני הראיה החשובות ייטלו או יעושרו. כדי לרסן רעש אקראי, SSG–CAM מעדנת בעדינות את הגרדיאנטים באמצעות מסננת גאוסיאנית, בדומה לטשטוש מצלמה שמוסר נקודות אבק תוך שמירה על צורות. לבסוף, היא משלבת את האותות המסוננים מסדר ראשון ושני באופן המדגיש תגובות חזקות ואמינות ומדכא תגובות חלשות או לא עקביות, וכך מייצרת מפות חום נקיות וממוקדות יותר.

לאפשר לאלגוריתמים לבחור את השכבות הטובות ביותר

רשתות עמוקות אינן פועלות בצעד יחיד: שכבות מוקדמות תופסות קווים וטקסטורות, בעוד ששכבות עמוקות מקודדות עצמים מלאים או מושגים. שיטות CAM רבות מנסות למזג מידע ממספר שכבות, אך לעיתים בעזרת כללים ידניים או קבועים. המחקר מראה כי חיבור תמים של כל השכבות עלול אפילו לפגוע בביצועים, על ידי הוספת רעש נמוך-רמה שמטשטש את ההסבר הסופי. כדי לפתור זאת, המחברים משלבים את SSG–CAM עם אסטרטגיית אופטימיזציה בשם אבולוציה דיפרנציאלית, ויוצרים את מסגרת DE–SSG–CAM. האלגוריתם הזה מחפש אוטומטית שילובים של שכבות תכונה ומספר פרמטרים מרכזיים, במטרה למצוא את התערובת שמתאימה בצורה הטובה ביותר לצורות האובייקטים בחבילת אימון מסומנת קטנה. לאחר שמוצאים את ההגדרות, ניתן להשתמש בהן מחדש, מה שמאפשר הסברים רב-שכבתיים חזקים ללא כיבוי ידני יקר.

בדיקת השיטה במבחן

החוקרים בדקו את SSG–CAM ו-DE–SSG–CAM בסדרה של ניסויים תובעניים. בבנצ'מרקים סטנדרטיים של תמונות, השיטה החדשה שיפרה את מיקום העצמים בלמידה מפוקחת חלשה — ציור תיבות סביב עצמים בעזרת תוויות ברמת התמונה בלבד — והייתה מדויקת יותר ממספר וראנטים פופולריים של CAM. היא גם שיפרה סגמנטציה סמנטית בבקרה חלשה, שבה המודל מתבקש לסמן כל פיקסל ללא מסכות אימון מפורטות. בניסוי "הפרעת תמונה", הצוות מטשטש את האזורים שהושרו על-ידי כל שיטה. כאשר הם הסירו אזורים שנבחרו על-ידי SSG–CAM, דיוק הרשת ירד ביותר, מה שמעיד שהאזורים הללו היו באמת קריטיים להחלטת המודל, ולא רק "נקודות חמות" דקורטיביות.

איתור טפילים זעירים בתאי דם

היישום הבולט ביותר מגיע מהדמיה ביומדיקלית. המחברים השתמשו בשיטה שלהם כדי לאתר טפילי מלריה בתוך תמונות של תאי דם אדומים, משימה שבה האזורים הנגועים יכולים להיות זעירים ופעוטים בצורתם. תוך שימוש בתוויות זיהום ברמת התמונה בלבד לאימון, DE–SSG–CAM ייצרה מסכות-משנה (pseudo-masks) שהתאימו בקירוב קווי המתאר שצוינו על-ידי מומחים, והשיגו ממוצע Intersection over Union של 62.38% — תוצאה חזקה לבעיה מאתגרת כל כך עם תיוג חלש. המסגרת גם הוסטה היטב לרשת מסוג שונה, ResNet34, מה שמראה שהטכניקה אינה תלויה בארכיטקטורה אחת וניתן להתאימה לעיצובים שונים.

מה זה אומר עבור משתמשים יומיומיים

לגולשים שאינם מומחים, המסר המרכזי הוא ששיטות אלו הופכות את "ההגיון" של ה-AI לגלוי ואמין יותר. SSG–CAM מציעה מפות חום חדות ופחות רעשניות שמתאימות טוב יותר למה שבני אדם יחשבו כעצם או נגע אמיתי, בעוד ש-DE–SSG–CAM לומדת אוטומטית כיצד לשלב מידע מעומקים שונים ברשת. יחד, הן מקרבות את ההסברים הוויזואליים צעד נוסף למשהו שרופאים, מהנדסים ומפיקי תקנות יוכלו להסתמך עליו כשישאלו: "למה המודל אמר שהתמונה הזו מראה מחלה — או סכנה?"

ציטוט: Chen, Z., Zhang, Y.J., Pan, L. et al. SSG–CAM: enhancing visual interpretability through refined second-order gradients and evolutionary multi-layer fusion. Sci Rep 16, 6848 (2026). https://doi.org/10.1038/s41598-026-37278-4

מילות מפתח: בינה מוסברת, מפות הפעלות מחלקה, ויזואליזציה של למידת עומק, ניתוח תמונות רפואיות, מיקום עצמים