Clear Sky Science · he

שיפור התאמת תחום ללא השגחה בת־ירה אחת לזיהוי אנשים חוצי מצלמות

2026-04-02 · חזרה לאינדקס

מדוע מצלמות חכמות חשובות

ערים מודרניות נסמכות על רשתות מצלמות לאבטחה כדי לסייע בשמירה על שלומם של אנשים, אך המצלמות הללו אינן "מסכימות" אוטומטית מי הוא מי. אדם עשוי להיראות שונה מאוד ממצלמה למצלמה בשל זוויות משתנות, צללים או צפיפות קהל. המאמר הזה מתמודד עם האתגר של מעקב אמין אחר אותו אדם ברחבי מצלמות רבות ללא השגחה אנושית כבדה. המחברים מתכננים מערכת חדשה שמנקה ומסתנכרנת תמונות מצלמה לפני השוואתן, מה שהופך את העיניים הדיגיטליות לייחודיות מדויקות יותר ומשתמש בנתוני וידאו קיימים ביעילות רבה יותר.

האתגר של מעקב אנשים בין מצלמות

כאשר אדם עובר בתחנת רכבת, בקניון או ברשת רחובות, מצלמות שונות תופסות מבטים שונים שלו. ביגוד יכול להיראות בהיר או עמום יותר, פנים יכולות להיות חצי מכוסות, ויציבתו של הגוף משתנה תמיד. שיטות "תצלום יחיד" מסורתיות מנסות לזהות אדם מתמונה אחת לכל מצלמה במעבר מהיר — מה שבדרך כלל מהיר אך שרירי: הן עלולות להיכשל כאשר התאורה משתנה, כאשר מישהו מכוסה חלקית על ידי אחרים, או כאשר הגדרות המצלמה שונות. תיוג אלפי תמונות ביד כדי לאמן מערכת חזקה יקר ואיטי, לכן קיים עניין רב בשיטות שיכולות ללמוד מנתונים בלתי מתויגים ועדיין להתמודד עם כל מגוון הוויזואלי הזה.

להדריך מצלמות לשתף סגנון משותף

הרעיון המרכזי הראשון בעבודה זו הוא לגרום לתמונות ממצלמות שונות להיראות דומות יותר לפני שמבצעים השוואה. המחברים משתמשים בסוג של מתרגם תמונה-ל־תמונה שנקרא CycleGAN כדי לקחת תמונות ממצלמה אחת ולשנות את סגנונן כאילו נלקחו ממצלמה אחרת, בלי צורך בדוגמאות מזווגות מושלמות. זה יוצר וריאציות חדשות וריאליסטיות רבות של כל אדם, המשקפות זוויות שונות, תאורה ורקעים שונים. באמצעות מיזוג ואיזון סגנונות בין מצלמות, המערכת מצמצמת את ה"פער" החזותי ביניהן. כתוצאה מכך, אלגוריתם הלימוד רואה סט אימון עשיר ואחיד יותר שמייצג טוב יותר את מה שקורה ברשת מעקב רב־מצלמות.

ניקוי והבהרת האות החזותי

לאחר התאמת הסגנון, התמונות עוברות שני שלבי ניקוי קלאסיים. תחילה, מסנן חציון מסיר רעשי נקודה קטנים — כגון ארטיפקטים של החיישן או שיבושים בדחיסה — תוך שמירה על קצוות חשובים כמו קווי המתאר של הגוף ודפוסי הביגוד חדים. שנית, איזון היסטוגרמה מתאים את התפלגות הבהירות כך שאזורים חשוכים יוארו ואזורי בהירות עודפת ייתמצקו, ובכך משפר את הניגודיות. יחד, פעולות אלה גורמות לצורות ולמרקמים של אנשים לבלוט בצורה ברורה ועקבית יותר בין מצלמות, מה שעוזר שלב הזיהוי למקד את עצמו בפרטים חזותיים משמעותיים במקום להטעה מתאורה גרועה או פיקסלים רעשיים.

שני מוחות שחושבים יחד

כדי להכריע האם שתי תמונות מראות את אותו אדם, המערכת משתמשת ברשת סיאמית — למעשה שתי רשתות עצביות זהות שמשתפות משקלות ומעבדות כל תמונה במקביל. מאמר זה מחזק את הרעיון על ידי מתן תצורת סיאמית עם שני "ענפים" בעומקים שונים. ענף אחד מבוסס על מודל יחסית רדוד (ResNet-50) שתופס רמזים ברמת ביניים כגון אזורי ביגוד כלליים וצורת גוף כללית. הענף השני משתמש במודל עמוק יותר (ResNet-152) שמגלה פרטים דקים יותר כגון קמטים עדינים, מרקמים ואביזרים קטנים. מפות התכונות שלהם מאוחסנות ומאוגדות בקפידה, כך שהייצוג הסופי משלב מבנה רחב עם הופעה דקה העשרת פרטים. הרשת לאחר מכן מחשבת ציון דמיון, המצביע האם שני מבטים ממצלמות שונות ככל הנראה שייכים לאותו אדם.

בדיקת השיטה בשטח

המחברים מעריכים את המסגרת שלהם על מאגר בדיקה נפוץ של תמונות הולכי רגל שנלכדו על ידי מצלמות מרובות. הם משווים את הגישה שלהם עם מספר שיטות חזקות קיימות שמתמקדות בקונטקסט מצלמה, קיבוץ חכם או עיצובים סיאמיים מסורתיים. במדדים רבים של הצלחה — כגון דיוק, דיוק חיובי ורגישות — המערכת החדשה עוקפת בעקביות, ומתקרבת או עולה על 99% דיוק בחלוקות אימון–בדיקה מסוימות. ניסויים מפורטים מראים גם שכל רכיב חשוב: הסרת הגדלת ה־CycleGAN, הניקוי או העיצוב הדו־ענפי מפחיתה את הביצועים, מה שמאשר שהשיפורים נובעים מצינור עבודה מלא שפועל יחד.

מה משמעות הדבר למעקב בעולם האמיתי

במונחים יומיומיים, המחקר הזה מראה כיצד להפוך רשתות מצלמות לטובות הרבה יותר במעקב אחרי אנשים הנעים במרחבים מורכבים, גם כשהתנאים משתנים ואין זמן לתייג נתונים ביד. באמצעות הרמוניזציה של מראה התמונות, ניקוי שלהן ולאחר מכן השוואה באמצעות רשת תאומה מתוכננת בקפידה, המערכת המוצעת יכולה לזהות פרטים בצורה אמינה יותר על פני מבטים רבים של מצלמות. הדבר עשוי לתמוך במרחבים ציבוריים בטוחים יותר ובפיקוח יעיל יותר, ובאותה עת מדגיש את החשיבות של שימוש שקול ומכבד פרטיות בכלי זיהוי חזקים כאלה.

ציטוט: Vidhyalakshmi, M.K., Neduncheliyan, S., Hemlathadhevi, A. et al. Enhancing single shot unsupervised domain adaptation for inter-camera person re-identification. Sci Rep 16, 11247 (2026). https://doi.org/10.1038/s41598-026-37168-9

מילות מפתח: זיהוי מחדש של אנשים, מצלמות מעקב, למידה ללא השגחה, ראייה ממוחשבת, רשתות עצביות עמוקות