Clear Sky Science · he

למידה ניגודית רכה וחלקה עם זיכרון היברידי לזיהוי מחדש של אנשים בלתי מפוקח בגילוי נראה-תת-אדום

2026-03-17 · חזרה לאינדקס

לראות אנשים בחושך

ערים מודרניות מושפעות מצלמות, אך רובן מתקשות בלילה או בתנאי מזג אוויר קשים. מצלמות תת-אדום, החושות חום במקום אור נראה, יכולות למלא את הפער הזה. האתגר הוא ללמד מחשבים לזהות את אותו אדם כאשר הוא נראה מאוד שונה על מצלמת יום ובמצלמת חישה תרמית, ולעשות זאת ללא תיוג ידני של אלפי תמונות על ידי מומחים אנושיים. המחקר מציע שיטה חדשה של למידה שמבצעת את ההתאמות האלה באופן אוטומטי, מה שהופך מערכות אבטחה פרטיות ומקיפות ליותר מעשיות סביב השעון.

להתאים אנשים בין שני עולמות שונים מאוד

זיהוי מחדש של אנשים בין תמונות נראות ותת-אדום שואל שאלה שנשמעת פשוטה: בהתחשב באדם שנראה על מצלמת צבע רגילה, האם ניתן למצוא את אותו אדם בסרטון ממצלמת תת-אדום, או להפך? במציאות, שני סוגי התמונות שונים בצבע, בניגוד ובפרטים, כך שהתיאור הפנימי של המחשב לגבי אדם עלול לסטות בין סוגי המצלמות. מערכות קודמות הסתמכו לעתים קרובות על מערכי תמונות מתויגים ביד בהיקפים גדולים, שבהם בני אדם מצביעים בקפדנות אילו תמונות מציגות את אותו אדם. זה יקר ואיטי, במיוחד ברשתות מולטיקמרה במרחבים גדולים כמו קמפוסים, נמלים או רחובות עירוניים.

למידה ללא תוויות אנושיות

המחברים מתמקדים בגרסה הקשה יותר — ה"בלתי מפוקחת" של הבעיה, שבה אין תוויות זהות אמתיות. במקום זאת, המחשב מקבץ תחילה תמונות שנראות דומות לצמדים, ומתייחס לכל קבוצת תמונות כאל אדם אחד. הזהויות המשוערות האלה נקראות תוויות-מדומה (pseudo-labels). הן מזינות אסטרטגיית אימון פופולרית הנקראת למידה ניגודית, שבה המודל מקרב תמונות מאותה קבוצה בייצוג הפנימי שלו ודוחק קבוצות שונות זו מזו. אך הקיבוץ רחוק מלהיות מושלם: אנשים לבושים דומה עלולים להתבלבל, ופערים בין תצוגות הנראות והתת-אדום מוסיפים טעויות נוספות. ברגע שהניחושים השגויים האלה משפיעים על האימון, הם עלולים להטעות את המודל ולהפחית את אמינותו.

החלשת ניחושים רעשים

כדי לרסן את התוויות-מדומה המטעיות, המאמר מציג סכמת למידה ניגודית "רכה וחלקה" המשתמשת בשני רשתות עצביות שמשתפות פעולה — סטודנט ומורה. הסטודנט מתעדכן בדרך הרגילה במהלך האימון, בעוד המורה הוא ממוצע נייד ואיטי של פרמטרי הסטודנט. עבור כל תמונה, המורה מפיק הערכת הסתברות רכה עדינה כמה היא מתאימה לכל קבוצה, במקום החלטת כן-או-לא קשיחה. הערכה רכה זו נמעכת אז עם שיוך הקבוצה הקשה של הסטודנט. התוצאה היא יעד מחליק שמרכך החלטות בלתי ודאיות ומגביר את השפעתן של החלטות אמינות יותר. באופן מעשי, המודל לומד לסמוך על מגמות הדרגתיות לאורך זמן במקום להגיב בחזקה לכל עדכון רעשני.

לזכור גם הבדלים וגם משותף

הרעיון המרכזי השני הוא "זיכרון היברידי" ששומר את מה שהמערכת למדה עד כה. שיטות קונבנציונליות שומרות זיכרונות נפרדים לתמונות נראות ולתמונות תת-אדום, מה שמשמר את ההבדלים אך מקשה על זיקוק מה משותף בין השניים. כאן, המחברים שומרים את אותם שני זיכרונות ובנוסף בונות שלישי: זיכרון מעורב שמערב את הדוגמאות הנראות והתת-אדום הכי דומות. זיכרון היברידי זה משמש מקום מפגש, מעודד את הרשת לגלות תכונות של אדם היציבות בין תנאי תאורה וחיישנים, כמו צורת גוף כוללת או פריסת ביגוד יותר מאשר צבע. מרכיב שלישי, עדכון זיכרון במשקל אדפטיבי, נותן יותר השפעה לדוגמאות יוצאות דופן אך אמינות ופחות לאמביגוסיות, כך שהזיכרון מתפתח לייצוגים חדים ושימושיים יותר באופן גלובלי.

מבחן השיטה

הצוות מעריך את הגישה שלהם, שנקראת למידה ניגודית רכה וחלקה עם זיכרון היברידי (SCLHM), על שלושה מערכי נתונים נפוצים הכוללים גם חומר נראות וגם תת-אדום שנלכד על ידי מצלמות מרובות בתנאים מציאותיים. הם משווים את המערכת שלהם לשיטות קיימות רבות, כולל כמה המשתמשות בתיוג ידני מלא ואחרות שעובדות עם תיוג חלקי או ללא תיוג כלל. בכל המדדים, SCLHM משיגה ביצועים מתקדמים בין גישות ללא תוויות, ובכמה מקרים מתקרבת או אף מתחרה בשיטות שתלויות באנוטציות ידניות. ניסויים נוספים מראים שכל אחד משלושת הרכיבים — החלקה רכה, זיכרון היברידי ועדכון אדפטיבי — תורם בצורה משמעותית לדיוק הסופי.

ראייה ברורה סביב השעון

לקורא כללי, המסר המרכזי הוא שהמחברים בנו שיטה שמאפשרת למחשבים ללמד את עצמם לזהות אנשים בין מצלמות יום ולילה בלי לדרוש מבני אדם לזהות מי הוא מי. על ידי החלקת ניחושים בלתי מהימנים ושילוב זהיר של מה הייחודי לכל סוג מצלמה ומה המשותף להם, המסגרת שלהם לומדת דפוסים יציבים וכלליים יותר. זה עושה את מעקב האנשים בסביבות מורכבות ודלות אור מדויק יותר וקנה מידה, דבר שעשוי להטיב עם אבטחה, ניהול תנועה ויישומים אחרים התלויים בחישה חזותית אמינה סביב השעון.

ציטוט: Zhang, C., Su, Y., Wang, N. et al. Soft smooth contrastive learning with hybrid memory for unsupervised visible-infrared person re-identification. Sci Rep 16, 13951 (2026). https://doi.org/10.1038/s41598-026-44364-0

מילות מפתח: זיהוי מחדש של אנשים, דימות תת-אדום, למידה בלתי מפוקחת, למידה ניגודית, השגחה