Clear Sky Science · he

ClarityTrack למעקב אחרי עצמים מרובים באמצעות שיוך היררכי והתאמת עלות בהתאם לסביבה

· חזרה לאינדקס

למה קשה לעקוב אחרי הרבה תנועות בו־זמנית

ממכוניות אוטונומיות ועד מצלמות אבטחה ושידורי ספורט — מצפים מהמצלמות המודרניות לעקוב אחר אנשים או עצמים רבים בו־זמנית. אבל המציאות מאתגרת: אנשים מצטלבים, נעלמים מאחורי אחרים או מטושטשים בתזוזה. המאמר מציג את ClarityTrack, שיטה חדשה לשמירה על "עיניים" דיגיטליות על כמה מטרות זזות בצורה אמינה יותר, גם ברחובות צפופים או במצבים של ריקוד מהיר.

איך מחשבים בדרך כלל עוקבים אחרי עצמים

מערכות מעקב רבות מזהות תחילה עצמים בכל פריים של הווידאו, ואז מנסות לקשר בין הזיהויים לאורך הזמן כדי ליצור מסלולים חלקים. הן מסתמכות על שתי רמזים עיקריים: תנועה (לאן משהו צפוי לעבור הלאה) ומראה (איך משהו נראה, באמצעות טביעות חזותיות שנלמדות ברשתות עמוקות). שיטות קיימות בדרך כלל מערבבות את שני הרמזים האלה לפי נוסחה קבועה — למשל משקל קבוע לתנועה ולמראה. זה עובד בסצנות פשוטות, אך נשבר כשהקהל צפוף, התנועה בלתי צפויה או טשטוש מצלמה משנה את המראה של האנשים.

למה נוסחה אחת קבועה אינה מספיקה

דמיינו מעבר חצייה צפוף: מיקומים חופפים, כך שמרחק מבוסס-תנועה הופך לבלתי מהימן, אך לבוש וגובה עדיין יכולים להבדיל בין אנשים. עכשיו תארו הופעת ריקוד: כולם לובשים תלבושות דומות ונעים באופן בלתי־ליניארי, כך ששני רמזי המראה והתנועה אינם יציבים. המאמר מראה שמעקבים מסורתיים מתעלמים מהמגוון הזה ומטפלים בכל פריים כאילו אותה תערובת של תנועה ומראה תעבוד. הם גם נוטים פשוט לחבר את שני הראיות ללא בדיקה האם הן מסכימות, דבר שיוצר לעתים החלפות זהות ושבירות במסלולים.

Figure 1
Figure 1.

אסטרטגיה בת שלושה שלבים למעקב ברור יותר

ClarityTrack מתמודד עם הבעיות האלו בעיצוב מבוסס־כללים שמורכב משלושה מודולים הפועלים ברצף. ראשית, Balanced Cascade Association מפצל את הזיהויים לקבוצות בעלות ביטחון גבוה ונמוך. לזיהויים בעלי ביטחון גבוה הוא משלב בתּוֹך בין תנועה ומראה בשיעור שווה, תוך ניצול שניהם. לזיהויים בעלי ביטחון נמוך הוא נוטה להתאמה זהירה המסתמכת רק על תנועה כדי לא להטעות מתמונות מטושטשות או מכוסות. שנית, Condition-Aware Matching with Weights מבחין בכך שסביבות וידאו שונות מתנהגות אחרת. הוא לומד מראש מערכי פרמטרים נפרדים לסצנות מאוזנות, סצנות צפופות מאוד ותנועות לא־ליניאריות ובלתי יציבות. עבור כל התאמה פוטנציאלית בין עצם במעקב לזיהוי חדש, הוא מחליט בזמן אמת אם לשמור על תערובת נייטרלית של 50:50 או לעבור לתערובת מכוילת לסביבה המעדיפה תנועה או מראה — אך רק כאשר מתקיימים תנאי איכות ברורים.

בדיקה האם תנועה ומראה מספרים את אותה סיפור

המודול השלישי, Motion-Appearance Consistency Check, פועל כשופט בין תנועה למראה. עבור כל התאמה אפשרית הוא בודק האם המיקום החזוי והדמיון החזותי נראים טובים שניהם, אחד בלבד טוב או אף אחד לא. כאשר שניהם מסכימים, הוא מוריד במעט את עלות ההתאמה כדי לעודד את הקישור. כאשר הם סותרים זה את זה, הוא מעלה את העלות כדי להרתיע שגיאה סבירה. כאשר התנועה נכשלת אך המראה ברור מאוד, הוא תומך בעדינות בהחזרת קשר לענק שצץ מחדש לאחר חסימה או תזוזה פתאומית. ההתאמות האלה מכויילות שונה לכל סוג סביבה כדי שהמערכת תישאר זהירה בסצנות צפופות מאוד אך נכונה יותר לקשר שוב רקדנים בתנועות כאוטיות.

Figure 2
Figure 2.

כמה טוב השיטה החדשה עובדת

המחברים בחנו את ClarityTrack על שלושה מאגרי בדיקה נפוצים: MOT17, המייצג סצנות רחוב טיפוסיות; MOT20, המייצג מדרכות צפופות מאוד; ו‑DanceTrack, מלא בקבוצות רקדנים המבצעות תנועות מורכבות. על מערכי נתונים אלה, ClarityTrack השווה ואף עלה על המעקבים המקוונים הטובים ביותר במידת המידה של איכות המעקב, במיוחד במדדים הבוחנים עד כמה זהויות נשמרות לאורך הזמן. חשוב לציין שרוב השיפורים מגיעים מהשיוך החכם של הנתונים ולא מהרשתות העמוקות הכבדות יותר, והמערכת עדיין רצה במהירות זמן־אמת או יותר בסצנות טיפוסיות.

מה משמעות הדבר לטכנולוגיה יומיומית

ללא מומחיות עמוקה, המסקנה המרכזית היא ש‑ClarityTrack מראה כיצד כללים פשוטים ושקופים, כאשר הם מכויילים בקפידה בהתאם לסביבה, יכולים להתחרות או לשפר שיטות שחסרות שקיפות ומתאימות לכל המקרים. על ידי הפרדת זיהויים בעלי ביטחון גבוה ונמוך, התאמה לסוג הסצנה ובדיקה מפורשת האם תנועה ומראה מסכימים, השיטה שומרת טוב יותר על מי הוא מי בכל דבר, מעולמות רחוב עד רחבות ריקוד. מעקב מודע לסביבה כזה יכול להפוך מערכות מבוססות מצלמות לבטוחות ואמינות יותר בעולם המציאותי המלוכלך והמשתנה תדיר.

ציטוט: Lee, SE., Yang, HS., Jung, SH. et al. ClarityTrack for multi object tracking via hierarchical association and environment specific cost matching. Sci Rep 16, 10581 (2026). https://doi.org/10.1038/s41598-026-45425-0

מילות מפתח: מעקב אחרי עצמים מרובים, חזון ממוחשב, פיקוח וידאו, ניתוח צפיפות קהל, נהיגה אוטונומית