Clear Sky Science · he

YOLC עם יחסי תשומת לב דינמיים וספאסים לזיהוי מטרה קטנה ומהירה בתמונות ספורט נישאות

2026-02-01 · חזרה לאינדקס

לראות את הספורט בעיני השחקן

דמיין צפייה בשריקת כדור טניס או בהחלפת כדור פינג‑פונג לא מהיציע, אלא דרך מצלמה היקנית המחוברת לראש הספורטאי. הכדור מטשטש כנקודה זעירה בחלון התצוגה, אך מאמנים ואנליסטים מעוניינים לדעת בדיוק לאן הוא הלך, באיזו מהירות וכיצד השחקנים הגיבו. המאמר מציג מערכת ראייה ממוחשבת חדשה בשם YOLC, שנועדה לזהות ולעקוב אחרי עצמים מהירים וקטנים בזמן אמת על מכשירים נישאים זעירים וצרי‑צריכת הספק.

מדוע יעדים זעירים ומהירים כל כך קשים לתפיסה

מצלמות נישאות הפכו נפוצות באימון ספורט, ותופסות וידאו בגוף ראשון של משחקים ותרגילים. אך מנקודת מבט זו, עצמים מהותיים — שקי נוצה, כדורי טניס, או דריסת ההתחלה של רץ ספרינט — תופסים לעיתים רק כמה פיקסלים ונעים במהירות בין פריימים. מערכות זיהוי קיימות או כבדות מדי למכשירים בעלי הספק נמוך או מאבדות מעקב כאשר העצמים קטנים, מטושטשים או מרוחקים. המחברים מראים שבחומר אמיתי מספורט, מטרות רבות קטנות מ‑32 על 32 פיקסלים ונעות כל כך מהר בין פריימים ששיטות סטנדרטיות מפספסות אותן או מאבדות את הזהות שלהן, שוברות מסלולים ופוגעות בכל ניתוח ביצועים משמעותי.

צינור ראייה קל־משקל למצלמות נישאות

החוקרים מציגים את YOLC (ראשי תיבות של “You Only Look Clusters”), צינור מלא לזיהוי ומעקב המותאם לחומרה בקצה כגון NVIDIA Jetson Nano. בבסיסה יש מחלץ תכונות זורם ומקומט מבוסס משפחת רשתות נוירוניות יעילה הידועה כ‑MobileNet, שעודכה לשימוש ברובו בפעולות "זולות" המפחיתות זיכרון וחישוב תוך שמירה על דיוק מספיק לזיהוי עצמים זעירים. פריימים של וידאו משנים גודל לרזולוציה מאוזנת, ומיוצרים שלושה רמות של מפות תכונה: אחת המדגישה פרטים עדינים למטרות קטנות, אחת לעצמים בינוניים, ואחת עם סמנטיקה גבוהה יותר לעצמים גדולים או מרוחקים. מפות רב‑הקנה האלו מזינות את שאר המערכת, שעוצבה בקפידה לסחוט כמה שיותר מידע מכל חישוב.

להשאיר לרשת להסתכל רק היכן שחשוב

חידוש מרכזי הוא מנגנון "תשומת לב דינמי וספאסי" החקיין את האופן שבו אדם עלול להסיט מבט רק לאזורים המידעיים ביותר בסצנה. במקום לעבד כל פיקסל באותו אופן, YOLC מודדת כמה התמונה משתנה מקומית — למשל בקצוות, בפינות או בקווי מתאר של כדור נע — ובונה מפה של מקומות שבהם המרקם הבולט ביותר. המערכת שומרת לאחר מכן רק כ‑30 אחוז מהאזורים עם תגובה גבוהה לעיבוד נוסף, וכך מכבה בפועל אזורי רקע רועשים כמו קירות, יציעים או שמים. טריק מיוחד באימון מאפשר למודל להישאר ניתן לאימון מלאה למרות החיתוך החמור הזה. מיקוד סלקטיבי זה לא רק משפר דיוק על ידי התעלמות מהסחות דעת, אלא גם מקטין באופן משמעותי את כמות העבודה שהרשת צריכה לבצע — יתרון קריטי על מכשירים נישאים עם סוללה.

ממאפיינים חדים למסלולים יציבים

לאחר המיקוד באזורים המרכזיים, YOLC משלבת מידע בין הקני נתונים באמצעות פירמידת תכונות דו‑כיוונית שמעבירה אותות גם מגס לדק ולהפך. חוזק הקישורים האלו מונחה על‑ידי אותה מפת תשומת לב, כך שעצמים קטנים חשובים מואצים בכל שלב. בשלב הגילוי הסופי יחידת "תשומת לב קואורדינטית" נוספת מסייעת למערכת להבין טוב יותר היכן העצמים נמצאים במסגרת על ידי קישור אותות בכיוונים אופקיים ואנכיים. כדי להפוך גילויים פריימה‑אחר‑פריימה למסלולים חלקים לאורך זמן, המתודולוגיה מוסיפה מודול זרימת אופטית קל משקל — כלי המעריך כיצד פיקסלים זזים בין פריימים עוקבים — וסכמת התאמה דו‑שלבית שמזוגגת תחילה גילויים בעלי ביטחון גבוה עם מסלולים קיימים, ואז משתמשת בזהירות בקופסאות בעלות ביטחון נמוך יותר שמתאימות לתנועה הצפויה. יחד, רכיבים אלו מצמצמים החלפות זהות ופערים, גם כאשר עצמים חותכים מסלולים או מוסתרים לזמן קצר.

ביצועים בעולם האמיתי

הצוות בדק את YOLC על מאגר נתונים ספורט מותאם הכולל בדמינטון, כדורסל, טניס, ספרינט ופינג‑פונג, כולם צולמו במצלמה מחוברת לראש בסביבות אימון אמיתיות. בחומר מאתגר זה המערכת רצה במהירות של 53.5 פריימים לשנייה עם רק 1.78 מיליון פרמטרים, הרבה פחות ממספר גדול של גלאי עצמים פופולריים. היא משיגה ציון זיהוי (mAP@0.5) של 75.3 אחוז וזכירה של עצמים קטנים של מעל 80 אחוז, ומתעלה על מספר מודלים קלים ידועים. במדדי מעקב, YOLC שומרת על מסלולים ארוכים ואמינים יותר ומצמצמת באופן דרסטי החלפות זהות. בנוסף היא מגלה עמידות בטשטוש תנועה ורעידות מצלמה, ומכפילה בערך את הפחתת דיווחי שגיאה בהשוואה לשיטות מתחרות.

מה זה אומר לספורט ומעבר לו

עבור מאמנים, אנליסטים ויצרני ציוד, המסר ברור: הבנה מדויקת ובזמן אמת של פעולות ספורט מהירות אינה חייבת להסתמך על שרתים מגושמים או על חומרי גלם בסגנון טלוויזיה מוקפדים. על‑ידי בחירה זהירה היכן ומתי להשקיע חישוב, YOLC הופכת וידאו גוף‑ראש רועש לתיעוד מפורט של כיצד עצמים קטנים ומהירים נעים ומתקשרים עם ספורטאים. זה יכול לאפשר משוב עשיר יותר באימונים, ניטור בטיחותי בספורט עתיר עוצמה, ובהיקף רחב יותר — מערכות ראייה חכמות יותר בכל מכשיר קטן שחייב לראות ברור תחת מגבלות חומרה קפדניות.

ציטוט: Chen, H., Song, Y., Liu, W. et al. YOLC with dynamic sparse attention for high-speed small target detection in wearable sports images. Sci Rep 16, 6858 (2026). https://doi.org/10.1038/s41598-026-38079-5

מילות מפתח: ראייה נישאת בספורט, זיהוי עצמים קטנים, מעקב בזמן אמת, AI בקצה, מנגנוני תשומת לב