Clear Sky Science · he

שיטת מורה-חציון קונטרסטיבית מבוססת פרוטוטייפ להתאמת תחום לא מפוקחת לזיהוי עצמים

· חזרה לאינדקס

לימוד מחשבים לזהות עצמים במקומות חדשים

מערכות בינה מלאכותית עכשוויות יכולות לזהות מכוניות, אנשים ושלטי רחוב בתמונות בדיוק מרשים — עד שהנוף משתנה. גלאי שאומן ברחובות עירוניים שטופי שמש עלול להסס בערפל, בלילה או ביצירות אמנות מעוצבות. מאמר זה מציג דרך חדשה "לתמוך את המורה" בתוך מערכות אלה כדי שיוכלו להסתגל לתנאים חדשים מבלי לדרוש קופסאות מתויגות חדשות שמצוירות בידי אדם.

Figure 1
Figure 1.

מדוע גלאי עצמים מתקשים כשהעולם משתנה

זיהוי עצמים נשען על אוספי תמונות מסומנות עצומים שבהם כל מכונית, אוטובוס או אופניים מקיפים במסגרת. אך מצלמות בעולם האמיתי נדירות מתאימות לתנאי האימון האלה. מזג אוויר שונה, תאורה או סוגי מצלמה משנים את המראה של עצמים — תופעה הידועה כהזזת תחום. כאשר זה קורה, גלאים המאומנים על תחום אחד, כגון סצנות תנועה בהירות ביום, עלולים לתפקד רע בתחומים אחרים, כמו כבישים ערפליים או נסיעות בלילה. איסוף תוויות חדשות לכל תנאי הוא יקר, ולכן חוקרים מחפשים שיטות שמותאמות לגלאים בעזרת נתונים לא מתויגים מהתחום החדש בלבד.

מערכת אימון עצמית עם מדריך מובנה

אסטרטגיה פופולרית מאפשרת למודל ללמד את עצמו. רשת "מורה", שנבנית כגרסה מוחלקת של רשת "תלמיד", מנבאת תיבות על תמונות היעד הלא מתויגות; הניבויים האלה, המכונים תוויות-מדומה (pseudo-labels), מאמנים את התלמיד. עם הזמן התלמיד משתפר והמורה מעודכנת כממוצע נייד של משקלות התלמיד. עם זאת, אם תוויות-המדומה הראשוניות שגויות — למשל חסרות עצמים בערפל כבד — שגיאות יכולות להצטבר. המחברים מראים כי שלוש רעיונות ניתנים לשילוב כדי לייצב את אימון העצמי: סידור מורה-חציון, למידה קונטרסטיבית (שמאשרת תכונות קשורות להתקרב ודוחקת אחרות להתרחק), ו"פרוטוטייפים" קומפקטיים שמסכמים כל קטגוריית עצמים.

פרוטוטייפים כנקודות ציון במרחב התכונות

העיקר במסגרת המוצעת PoCoMT הוא רשת יישור הפרוטוטייפים, או ProtoAN. במקום להשוות כל עצם לכל עצם אחר, ProtoAN לומדת קבוצת נקודות מייצגות קטנה — פרוטוטייפים — עבור כל קטגוריה, כגון מכונית או הולך רגל. התכונות המופקות מאזורי תמונה ממופות למרחב מיוחד שבו דוגמאות מאותה קטגוריה מתחומים שונים מתרכזות סביב פרוטוטייפ משותף, בעוד שקטגוריות שונות נדחפות זו מזו. פונקציית אובדן קונטרסטיבית מעודדת את האשכולות האלה, הן בתוך תחום יחיד והן בין תחום המקור לתחום היעד. באופן מכריע, מנגנון זה מטפל גם ברקע כקטגוריה נפרדת, ועוזר למערכת להבחין בין עצמים אמיתיים לבין עומס חזותי.

Figure 2
Figure 2.

שימוש טוב יותר בנתונים לא מתויגים

PoCoMT משפר את תוויות-המדומה של המורה בשני אופנים. ראשית, מטרה של "מקסימיזציית מידע" דוחפת את הניבויים על תמונות היעד להיות גם בטוחים לגבי כל עצם וגם מגוונים בין קטגוריות, ובכך נמנעת התנהגות טריוויאלית של תיוג הכל כקטגוריה זהה. שנית, ProtoAN מעדן את תוויות-המדומה על ידי השוואת תכונות לפרוטוטייפים במקום להסתמך על ניבויים גולמיים. אם הקטגוריה החזויה של אזור אינה תואמת לפרוטוטייפ הקרוב ביותר, ניתן להתאים את התווית. זה מקנה למערכת סובלנות לרעש: גם כאשר המחברים פגעו במכוון ברבות מתוויות-המדומה במהלך האימון, ביצועי PoCoMT הידרדרו בעדינות רבה יותר משיטות מתחרות.

גלאים חזקים יותר לסצנות מציאותיות קשות

נבדק על מערך רחב של מבחנים — כולל רחובות מבהירים לערפילים, תחבורה סינתטית לאמיתית, נהיגה מיום לדמדומים ותמונות מציאותיות לאמנותיות — PoCoMT עקף בעקביות טכניקות קיימות להתאמת תחום לא מפוקחת, לעיתים בכמה נקודות אחוז בדיוק הזיהוי. במקרים מסוימים הוא אף גבר על מודלים שאומנו ישירות על נתוני היעד המסומנים, הודות ליכולתו לנצל הן תמונות מקור מסומנות והן שפע של תמונות יעד לא מתויגות. עבור לא-מומחים, המסר פשוט: על ידי כך שמאפשרים לגלאי עצמים לארגן "נקודות ציון" פנימיות משלו לכל קטגוריה ובכך מנווטים בקפידה את חילופי המידע בין המורה והתלמיד, הגישה הזו הופכת מערכות ראייה מלאכותית עמידות יותר כאשר העולם נראה שונה מנתוני האימון שלהן.

ציטוט: Cao, Q., Tao, J., Dan, Y. et al. Prototype-oriented contrastive mean-teacher for unsupervised domain adaptive object detection. Sci Rep 16, 10869 (2026). https://doi.org/10.1038/s41598-026-44991-7

מילות מפתח: התאמת תחום לא מפוקחת, זיהוי עצמים, אימון עצמי, למידה קונטרסטיבית, למידת פרוטוטייפ