Clear Sky Science · he

EchoNet++: מאגר נתונים רב־שפתי של פרשנות שמע למשחקי כדורגל

2026-02-17 · חזרה לאינדקס

מדוע צלילי כדורגל חשובים

כל מי שצפה במשחק גדול יודע שהרעמה של הקהל וגלי העלייה והירידה בקולו של הפרשן הם חלק בלתי נפרד מהדרמה כמו השערים עצמם. עם זאת, כמעט כל הטכנולוגיות המודרניות בספורט מתמקדות במה שמצלמות רואות, ולא במה שמיקרופונים שומעים. מאמר זה מציג את EchoNet ו‑EchoNet++, מערכת ומשאב נתונים שממירים את רעש השידורים המקצועיים בכדורגל ממדינות רבות לטקסט נקי וחיפושני שמחשבים יכולים לנתח. זה מאפשר לחקור טקטיקה, רגשות וסיפורת ברחבי ליגות ושפות בקנה מידה ששום צוות מתרגמים אנושי לא יכול להגיע אליו.

מאצטדיון רועש לאות נקי

שידורי טלוויזיה של משחקים הם מבחינה אקוסטית מבולגנים. פרשנים מדברים מעל המקהלה של האוהדים, מוזיקת אצטדיון והפרצי עידוד פתאומיים. כלים קודמים הזרימו ברוב המקרים את הרעש הגולמי הזה ישירות לתוכנות זיהוי דיבור, שהתקשו עם קולות חופפים, החלפת שפות ואיכות שמע ירודה. EchoNet מטפל בבעיה כצנרת הנדסית ולא כדגם יחיד חכם. התהליך מתחיל בחילוץ פס־השמע מסרטוני המשחק המלאים והמרתו לפורמט סטנדרטי ואיכותי. המערכת עוקבת לשלב התדירות, מתמקדת בטווח שבו שוכן הדיבור האנושי תוך דיכוי באסים רועמים וארטיפקטים צלולים. כלי למידת עומק בשם Demucs מבצע הפרדה נוספת של צלילים דמויי דיבור מהשאר, ומשאיר מסלול נקי הרבה יותר לשלב הפענוח הבא.

ללמד מכונות להבדיל קולות מרעש

לאחר שהשמע מתנקֶה, EchoNet צריכה להחליט מתי מישהו באמת מדבר והאם הקול שייך לפרשן או לקהל. לשם כך משתמשים החוקרים בגלאי פעילות דיבור נוירלי שסורק את האודיו בחלונות קצרים ומסווג כל רגע כדיבור או לא־דיבור. מקטעי הדיבור שזוהו נבדקים ביתר פירוט. מקטעים שמציגים קצב ומבנה יציב של שפה מדוברת מתויגים כפרשנות, בעוד מקטעים שנראים כמו פרצי אנרגיה כאוטיים מתויגים כאוהדים. ההפרדה הזו חשובה: משפטי פרשן נושאים משמעות טקטית ונרטיבית, בעוד תגובות הקהל מסמנות בעיקר שיאים רגשיים כמו שערים או פספוסים קרובים. על ידי פיצול המקורות האלה המערכת יכולה לטפל בהם בצורה שונה בניתוחים הבאים.

להפוך ערכות שפות רבות לסיפור אחד

EchoNet מזינה כל מקטע פרשנות למספר גרסאות של דגם זיהוי הדיבור האוטומטי Whisper, כולל גרסאות סטנדרטיות ומותאמות למהירות. דגמים אלה מאומנים על מאות אלפי שעות של שמע רב־שפתי, מה שהופך אותם מתאימים לליגות הגדולות של אירופה שבהן המשדרים נעים בין אנגלית, גרמנית, ספרדית, איטלקית, צרפתית ושפות נוספות. המערכת מתעדת לכל מקטע את התזמון, השפה והתמלול לקבצי JSON מובנים המקושרים למחציות המשחק. עבור קטעים שאינם באנגלית, EchoNet מתמללת תחילה בשפה המקורית ולאחר מכן שולחת את הטקסט למנוע תרגום כדי להשיג גרסאות באנגלית. עיצוב דו‑שלבי זה שומר על טעות בתמלול ונתרמת בתרגום נפרדות, מה שמסייע לחוקרים לאתר כשלים ולהשוות התנהגות ספציפית לשפה.

איך מודדים עד כמה זה עובד

מכיוון שכוחה של צנרת שווה לחוליה החלשה ביותר שלה, המחברים מעריכים את EchoNet ממספר זוויות. הם מציגים ציון חדש בשם "דיוק הדיווח" שממיר שיעורי שגיאת מילים מסורתיים לאחוז אינטואיטיבי של תוכן שעשוי להחשב נכון מעשית. על פני שלושה מאגרים — כולל אוסף EchoNet++ החדש שהשחררו של 20 משחקים מלאים — העיבוד המוקדם עם EchoNet מקטין בעקביות את שגיאות התמלול ומעלה את דיוק הדיווח בכמה נקודות עבור כל דגם Whisper שנבדק. מדדי איכות אות, שמעריכים עד כמה הדיבור יהיה מובן למאזין אנושי, משתפרים אף הם באופן משמעותי לאחר סינון, הסרה רעש ונירמול. מחקרי אבולציה, שבהם מרכיבים בודדים כמו מסנן פס‑סר או גלאי הקול מוסרים, מראים שכל שלב תורם באופן משמעותי הן לבהירות והן לנכונות.

מה זה אומר לאוהדים ולאנליסטים

במונחים יומיומיים, EchoNet ו‑EchoNet++ מספקים דרך אמינה להמיר שעות של פרשנות משחק רועשת ורב־שפתית לטקסט נקי, מסונכרן בזמן ומדדי קהל. על בסיס זה יכולים מפתחים לזהות באופן אוטומטי אירועים מרכזיים מטון ומילות הפרשן, להתאים את הרגעים הללו לפיצוצים בתגובת הקהל, ולבנות סיכומים מפורטים או קליפים של ההיילייטים ללא רישום ידני. משמעותי מכך, המאגרים והקוד משוחררים לשימוש מחקרי, מה שנותן לקהילה פלטפורמה משותפת וחוזרת למחקר כדורגל דרך השמע. עבור אוהדים ואנליסטים כאחד, העבודה הזו דוחפת את סיקור הספורט לעתיד שבו פסקול המשחק הופך לחיפוש ולניתוח באותה רמת חשיבות כמו הווידאו עצמו.

ציטוט: Majeed, F., Nazir, M., Agus, M. et al. EchoNet++: A multilingual soccer match audio commentary dataset. Sci Rep 16, 8884 (2026). https://doi.org/10.1038/s41598-026-39884-8

מילות מפתח: ניתוח כדורגל, שמע בספורט, זיהוי דיבור, פרשנות רב־שפתית, ניתוח שידורים