Clear Sky Science · he
DeCon-Net: דיסאונקציה היררכית מבדילה לזיהוי עצמים בכדורגל
מדוע איתור שחקנים והכדור קשה יותר ממה שנדמה
שידורי כדורגל מודרניים מלאים בגרפיקות, בנתונים ובהשמעות חוזרות, כולם מונעים על ידי מערכות מחשוב שחייבות קודם כל לענות על שאלה שמתחילה בפשטות מטעה: היכן נמצאים השחקנים והכדור בכל פריים? המאמר הזה חוקר מדוע כלי בינה מלאכותית מובילים עדיין מתקשיים במשימה הבסיסית הזו במשחקים אמיתיים—ומציג שיטה חדשה, DeCon‑Net, שמגבירה את האמינות של זיהוי אוטומטי של שחקנים וכדור, במיוחד בסצנות צפופות ומורכבות.

שלוש בעיות נסתרות בסרטוני כדורגל
בלבט ראשון, זיהוי שחקנים וכדור נראה פשוט: הם נעים, יש להם צורות מובהקות והם דומיננטיים על פני המגרש. אך המחברים מראים שמערכות ראייה ממוחשבת סטנדרטיות סובלות משלוש בעיות משולבות. ראשית, חבילות של שחקנים מאותה קבוצה הלבושות במדים זהים כמעט בלתי ניתנות להבחנה עבור האלגוריתם, שתיאורי ה"מאפיינים" הפנימיים שלו קורסים לנקודות כמעט זהות. שנית, בעימותים צפופים השחקנים חופפים כל כך שהמאבחנים לעתים מציירים תיבת גבול אחת גדולה סביב מספר אנשים במקום תיבות נפרדות לכל שחקן. שלישית, הכדור קטן מאוד—לעיתים רק כמה עשרות פיקסלים—והאות הוויזואלי שלו חלש מספיק כדי להיטמע במרקם הדשא ובתנועת השחקנים, מה שגורם למערכת להחמיץ אותו לחלוטין.
להפריד את מה שהרשת לומדת
DeCon‑Net מתמודד עם הבעיות האלה על ידי שינוי האופן שבו רשת נוירונית מייצגת את מה שהיא רואה בפריים. במקום לאפשר למודל ללמוד תיאור מאוחד לכל עצם, המחברים מפרקים את התיאור לשני חלקים משלים. ערוץ אחד לוכד את מה שמשותף לשחקנים מאותה קבוצה—כמו צבע החולצה—בעוד הערוץ השני מתמקד במה שמבדיל כל פרט, כמו פוזת הגוף או המיקום המדויק. טריק אימון מיוחד הופך את הגרדיאנט בערוץ ה"אינדיבידואלי" בכל פעם שהרשת מנסה להשתמש במידע קבוצתי שם, ובכך מלמד אותו להתעלם מצבע המדים ולהתרכז ברמזים ספציפיים לפרט. שני הערוצים משולבים באופן אדפטיבי, כך שהמערכת יכולה להישען יותר על תכונות משותפות בסצנות פשוטות ויותר על תכונות פרטניות כששחקנים מתגודדים.
ללמד את המודל באמצעות השוואות, לא רק תוויות
מעבר לייצוג המפוצל הזה, DeCon‑Net משנה את צורת הלמידה עצמה. השיטה מוסיפה שלב אימון "קונטרסטיבי" היררכי שמשווה באופן מתמיד זוגות של עצמים שזוהו. זוגות שכבר שונים בצורה ברורה מקבלים דחיפות עדינה, בעוד זוגות שנראים מבלבלים—כמו שני חובקי כתפיים מאותה קבוצה—מואמנים באופן אגרסיבי יותר כדי להתרחק בחלל הפנימי של הרשת. האסטרטגיה התלת‑רמת הזו מתחילה בהבחנות קלות, עוברת להבדלים עדינים בתוך קבוצה, ולבסוף מתמקדת בשינויים בין משחקים ובתנאי שידור שונים. כדי להציל את הכדור הקטן מלהיחפס בחזית, השיטה גם מגבירה את השפעתם של עצמים זעירים במהלך האימון, מה שמבליט את אות הכדור במקום שיישתקע כרעש רקע.
ממדדי מעבדה לשידורי ספורט אמיתיים
החוקרים בחנו את DeCon‑Net על שני מאגרי נתונים תובעניים: SportsMOT, הכולל כדורגל, כדורסל ווולי‑בול, ו‑SoccerNet‑Tracking, שנבנה משידורי טלוויזיה אמיתיים עם זום מצלמה, טשטוש תנועה והסתרות תכופות. בכל המדדים, DeCon‑Net זיהה גם שחקנים וגם כדורים בדיוק גבוה יותר ממערכות נרחבות שבוססו על Faster R‑CNN, DETR ושיטות עדכניות שמכוונות לעקיבה. השיפורים בולטים במיוחד לגבי הכדור, עם עלייה בדיוק של יותר מ‑40 אחוזים לעומת בסיסים חזקים. המערכת גם החזיקה מעמד טוב יותר כשהוחלה על מאגר שונה מזה שאימנה עליו, מה שמרמז שהעיצוב המפוצל של התכונות תופס רמזים כלליים ושימושיים יותר על סצנות ספורט.

מה זה אומר לעתיד ניתוחי הספורט
במונחים יומיומיים, המאמר מראה שרבות ממערכות ה‑AI הנוכחיות "רואות" כדורגל באופן מפושט מדי: הן מאחדות שחקנים מאותה קבוצה ומתעלמות כמעט מהכדור כשהאירוע נהיה סוער. DeCon‑Net מנע את זה על‑ידי אילוץ הרשת ללמוד בנפרד מי משתייך לאיזו קבוצה ומי הוא כל פרט, ולתת תשומת לב מוגברת לעצמים זעירים שקל להחמיצם. התוצאה היא מפת שדה מדויקת ואמינה יותר של כל שחקן והכדור, פריים אחר פריים. יסוד זה יכול להניע ניתוח טקטי טוב יותר למאמנים, גרפיקות עשירות יותר למשדרים וסטטיסטיקה מדויקת יותר לאוהדים, ומתקרב אותנו להבנה אוטומטית אמיתית וחכמה של המשחק.
ציטוט: Ouyang, Q., Du, T. & Li, Q. DeCon-Net: decoupled hierarchical contrast for soccer object detection. Sci Rep 16, 7571 (2026). https://doi.org/10.1038/s41598-026-39084-4
מילות מפתח: ניתוח וידאו של כדורגל, זיהוי עצמים, אנליטיקה ספורטיבית, ראייה ממוחשבת, מעקב כדור