Clear Sky Science · he

אלגוריתם מעקב עצמים המבוסס על מנגנון תשומת לב מתעקל

· חזרה לאינדקס

שמירה על מעקב בעולם צפוף ומבולגן

מצלמות מודרניות עוקבות אחרי רחובות הומים, קניונים ורצפות מפעל, אך ללמד מחשבים לעקוב אחרי אנשים וחפצים רבים במצבים האלה קשה באופן מפתיע. כשמישהו עובר מאחורי עמוד, כשאורות קדמיים מהבהבים, או כשמונים דוחסים דרך פתח, גם תוכנות מעקב מתקדמות עלולות לאבד עקיבה, לבלבל זהויות או לצרוך יותר כוח חישוב ממה שמקובל. מאמר זה מציג גישה חדשה למעקב שנועדה להיצמד למטרות באופן אמין יותר במצבים כאוטיים בעולם האמיתי, ועדיין לפעול ביעילות מספקת לשימוש מעשי.

Figure 1
Figure 1.

מדוע מעקב מסורתי אינו מספיק

מערכות מעקב עצמים פועלות בדרך כלל בשלושה שלבים: הן סורקות כל פריים של הווידאו כדי לחלץ פרטים חזותיים, אז משלבות מידע בקני מידה ואזורים שונים, ובסוף חוזות כיצד כל מטרה נעה לאורך הזמן. שיטות רבות לאחרונה שיפרו אחד מהשלבים הללו בכל פעם — למשל שיפור הגלאי, האצת חישובים או הוספת מודלים תנועתיים חכמים יותר. אך בסצנות צפופות ומשתנות במהירות, החולשות שבין החלקים האלה נחשפות. "שדות ראייה" קבועים ברשתות סטנדרטיות אינם גמישים סביב גופים כפופים או תנוחות משתנות, וחיזוי תנועה שמניח תנועה חלקה ופשוטה עלול להסטות משמעותית כאשר אנשים נעצרים, פונים או נעלמים לזמן קצר מאחורי מכשולים.

עין גמישה למטרות נעות

המחברים מתמודדים עם המגבלות הללו על ידי מתן דרך גמישה יותר ל"הסתכלות" של מערכת המעקב בסצנה. הם מתחילים עם גב תהליך לעיבוד תמונה פופולרי בשם ResNet-18 ומשלבים בו מנגנון תשומת לב מתעקל. במקום לדגום תמיד מידע חזותי בנקודות קשוחות ובמרווחים שווים, המנגנון הזה לומד להזיז את מיקומי הדגימה שלו לעבר הנקודות המידעיות ביותר על אדם או חפץ — כמו קווי המתאר של פלג גוף עליון או ראש — תוך התעלמות מהרעש הרקעי המפתה. על ידי הכנסת תשומת לב מתעקל לשכבות העמוקות של הרשת, המערכת יכולה להתאים את מוקדה כאשר אנשים משנים תנוחה, קנה מידה או מוסתרים חלקית, בלי להוסיף עומס חישובי משמעותי. מבחנים על מאגרים גדולים מראים שעין גמישה זו לא רק משפרת את דיוק המעקב אלא עושה זאת עם עלייה של פחות מ-8% בחישוב והרבה פחות בהגדלת פרמטרים.

מיזוג פרטים בקני מידה ובמימד הזמן

מעקב אחרי רבים דורש גם הבנה של פרטים דקים ושל התמונה הכוללת. לשם כך, השיטה משתמשת במודול מיזוג תכונות מיוחד — פירמידת תכונות דו-כיוונית — המערבבת מידע ממבט גס ורמות גבוהות ומפרטים עדינים ברמות נמוכות. המחברים משפרים מודול זה באמצעות רעיון תשומת הלב המתעקל, מה שמאפשר ליישר טוב יותר תכונות שעשויות להיות לא תואמות כאשר אנשים חופפים או נעים במהירות. זה מסייע להפריד בין יחידים בתוך קהל צפוף ומפחית בלבול זהויות. במימד הזמן, האלגוריתם נשען על כלי קלאסי מתורת הבקרה — מסנן קלמן — אך באופן חכם יותר. במקום להתייחס לחיזוי המודל כאמת מרכזית ולראות בגלאי תיקון קטן, התנהגות המסנן מונעת לפי מידת הביטחון של הגלאי בכל פריים. כשהגלאי ודאי, המערכת סומכת עליו ישירות ומקטינה הצטברות שגיאות; כשהוא לא ודאי, המסנן נוטה יותר לתנועת העבר ומשלב את שני המקורות באופן חלק.

Figure 2
Figure 2.

עד כמה זה עובד בעולם האמיתי?

הצוות מעריך את הגישה שלהם — הנקראת DAM-Track — על מערכי נתונים ציבוריים מאתגרים שתוכננו לבחון קיצוניות של אלגוריתמים למעקב. במבחנים על עצם יחיד המדגישים רצפים ארוכים ומצבים קשים כמו עיוות חזק והסתתרות מלאה, גב תשומת הלב המתעקל משפר שיעורי חפיפה והצלחה לעומת ResNet-18 סטנדרטי, ללא עלות גבוהה נוספת. בבנצ'מרק מפורסם למעקב רב-עצמים מלא אנשים בהמונים, DAM-Track משיג דיוק כולל גבוה יותר, לוקליזציה חדה יותר ועקביות זהות טובה יותר מאשר שיטות נפוצות כגון ByteTrack ו-DeepSORT. הוא שומר על מסלולים לאורך זמן רב יותר, מאבד פחות מטרות ומצטיין במיוחד במניעת החלפות זהות, שהן קריטיות ליישומים כמו ניטור בטיחות וניתוח תנועה.

המשמעות לשימושים יומיומיים

ללא מומחיות עמוקה, המסקנה היא שעבודה זו הופכת עוקבי ראייה ממוחשבת לעמידים יותר בסוגי הסצנות המבולגנות והבלתי צפויות שחשובות בעשייה המעשית — מתחנות רכבת ורחובות עירוניים ועד חנויות חכמות ורכבים אוטונומיים. על ידי מתן אפשרות ל"מבט" של המערכת להתעקם אל עבר אזורים חשובים ותיאום חילוץ התכונות, מיזוג רב-קני-מידות וחיזוי תנועה דרך מושג משותף של ודאות, המחברים בונים עוקב בלולאה סגורה ששומר טוב יותר על מי נמצא איפה לאורך זמן. אמנם נדרש בדיקה נוספת בתנאי לילה, מצלמות אוויריות וסביבות מרובות-מצלמות, העיצוב הגמיש וידוע-הביטחון הזה מצביע על דור חדש של מערכות מעקב היכולות לפקוח עין על סביבות מורכבות באופן אמין יותר ללא דרישות חישוביות בלתי מעשיות.

ציטוט: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x

מילות מפתח: מעקב רב-עצמים, ראייה ממוחשבת, מנגנוני תשומת לב, פיקוח בהמון אנשים, נהיגה אוטונומית