Clear Sky Science · he

מעקב סיאמי דו־ענפי משופר בטרנספורמר עם רגרסיה מודעת־ביטחון ועדכון תבנית אדפטיבי

2026-01-13 · חזרה לאינדקס

ללמד מחשבים לעקוב אחרי עצם יחיד בסצנה צפופה

מרכבים אוטונומיים דרך מצלמות אבטחה ביתיות ועד רחפנים — מכשירים מודרניים רבים צריכים לעקוב אחרי עצם נייד אחד בתוך עולם עמוס ומשתנה. המשימה הזו, שנקראת מעקב חזותי אחר עצמים, נשמעת פשוטה לבני אדם אך מפתיעה בקושי שלה עבור מכונות: אנשים עוברים מול המצלמה, התאורה משתנה, העצם מתקצר מרחוק או מוסתר לזמן קצר. מאמר זה מציג את TSDTrack, מערכת מעקב חדשה שמנצלת התפתחויות עדכניות בלמידה עמוקה ובטרנספורמרים כדי להישאר נעולה על היעד באופן מהימן יותר בתנאים מציאותיים כאלה.

מדוע מעקב אחר דבר אחד כל כך קשה

מעקב בדרך כלל רואה את העצם בבירור רק במסגרת הראשונה של הווידאו, ואחר כך צריך להמשיך למצוא אותו כאשר הסצנה משתנה. שיטות מסורתיות הסתמכו או על תכונות תמונה מעוצבות ידנית או על רשת נוירונים שהשוותה את המסגרת הראשונה (ה"תבנית") לכל מסגרת חדשה. מערכות ישנות אלה סבלו משלוש חולשות עיקריות. ראשית, הן בדרך כלל השאירו את התבנית המקורית קבועה, כך שאם העצם הסתובב, נעטף חלקית או השתנה בגודל — המערכת התקשתה. שנית, הן התמקדו לעתים קרובות ברמת פירוט בודדת בתמונה, ופיספסו את השילוב בין קצוות עדינים להקשר רחב יותר שעוזר לזיהוי. שלישית, הן לא ידעו מתי לסמוך על עצמן: הן ייצרו תיבה סביב מה שנראה כמיקום העצם ללא אינדיקציה ברורה עד כמה הניחוש מהימן, מה שעושה אותן פגיעות להתדרדרות לאזור הרקע.

חיבור בין הקשר גלובלי לפרטים עדינים

TSDTrack מתמודד עם הבעיות האלה על ידי שילוב סידור סיאמי קלאסי עם טרנספורמר, אותו מודל מבוסס תשומת לב ששינה משימות בשפה ובחזון. המערכת משתמשת ברשת עמוקה לחילוץ תכונות משני קלטים: חתיכה קטנה שמגדירה את היעד וחתיכה גדולה יותר שמכילה את אזור החיפוש הנוכחי. במקום להסתמך על סקאלה אחת של תכונות בלבד, היא שואבת מידע מריבוי שכבות ברשת, המייצגות קצוות, צורות ותבניות ברמת עצם. מודול מיזוג מבוסס־טרנספורמר לומד אז איך לשלב את השכבות הללו כדי שהמעקב יבין גם היכן הדברים נמצאים בתמונה וגם איך הם מתקשרים להקשר הרחב יותר. זה עוזר להבחין בין היעד לעצמים דומים ולבלגן, גם כאשר התצוגה רועשת או מוסתרת חלקית.

לדעת עד כמה המעקב בטוח באמת

הלב של TSDTrack הוא ראש חיזוי דו־ענפי שמפריד את המשימה לשני שאלות קשורות: "איפה העצם?" ו"כמה עלינו לסמוך על התשובה הזו?" ענף אחד מעריך ציון ביטחון שמשקף לא רק עד כמה היעד דומה למקור, אלא גם עד כמה תיבת החיזוי חופפת לאזורים סבירים של עצם. הענף השני מטפל בקואורדינטות התיבה לא כניחוש יחיד אלא כהתפלגות הסתברותית על פני מיקומים אפשריים רבים, מה שמאפשר למודל לייצג אי־וודאות. כאשר התמונה ברורה, ההתפלגות נעשית חדה והתיבה מדויקת; כאשר העצם מטושטש או מוסתר חלקית, ההתפלגות מתפזרת. גישה פרובביליסטית זו מביאה למיקום תיבות חלק יותר ויציב יותר בהשוואה למעקבים ישנים שעשו חיזוי קשיח יחיד.

לעדכן זיכרון בלי לשכוח את המקור

סכנה מרכזית במעקב היא "נדידת תבנית": אם המודל ממשיך לעדכן את התפיסה שלו על העצם מתוך פריימים גרועים, הוא עלול להחליט לאט שהוא בעצם הלמד את הרקע. TSDTrack מתמודד עם זה בכך שהוא מאפשר לענף הביטחון לשמש כשומר סף. המערכת מעדכנת את התבנית הפנימית רק כאשר ציון הביטחון גבוה מסף שנבחר, ואף אז היא משלבת את המידע החדש בעדינות עם המבט המקורי במקום להחליפו לחלוטין. עדכון סלקטיבי זה מאפשר למעקב להסתגל לשינויים אמיתיים, כמו אדם שמסתובב או מכונית שמתהפכת, מבלי להתבלבל על ידי חסימות רגעיות או הסחות דעת. התבנית המקורית נשמרת גם כמאגר יציב במקרה שעדכונים מאוחרים יתבררו כמטעות.

מה המשמעות של התוצאות בפועל

המחברים בחנו את TSDTrack על מספר מערכות מבחן מקובלות למעקב, כולל וידאו ארוכים, תנועה מהירה, צילומי אוויר מרחפנים וסצנות עמוסות מאוד. בכל המבחנים הללו, השיטה החדשה עקפה בעקביות רבות מהשיטות המובילות הן בדיוק (כמה קרובה התיבה לעצם האמיתי) והן בעמידות (כמה לעיתים נדירות היא מאבדת את העצם לגמרי), ובאותו זמן פעלה במהירות מספיקה לשימוש בזמן אמת על חומרה מודרנית. למי שאינו מומחה, המסקנה היא ש־TSDTrack יכול לשמור על המטרה שנבחרה בצורה מהימנה יותר בתנאים כאוטיים הנפוצים במצלמות בעולם האמיתי. בשילוב הסקת טרנספורמר מרובת סקאלות, תחושת ביטחון פנימית ועדכוני תבנית זהירים, הוא מציע בלוק בנייה אמין יותר ליישומים כמו נהיגה אוטונומית, ניטור חכם ורובוטים אינטליגנטיים.

ציטוט: Sachin Sakthi, K.S., Jeong, J.H. & Choi, W.Y. Transformer-augmented dual-branch siamese tracker with confidence-aware regression and adaptive template updating. Sci Rep 16, 5170 (2026). https://doi.org/10.1038/s41598-026-35692-2

מילות מפתח: מעקב חזותי אחר עצמים, מעקב מבוסס טרנספורמר, רשתות סיאמיות, ראייה ממוחשבת, מערכות אוטונומיות