Clear Sky Science · ar
EchoNet++: مجموعة بيانات متعددة اللغات لتعليقات صوتية لمباريات كرة القدم
لماذا أصوات كرة القدم مهمة
أي شخص شاهد مباراة كبيرة يعلم أن هدير الجمهور وصعود وهبوط صوت المعلّق هما جزء لا يتجزأ من الدراما بقدر الأهداف نفسها. ومع ذلك، تظل تقنيات الرياضة الحديثة تركز في معظمها على ما تلتقطه الكاميرات لا على ما تلتقطه الميكروفونات. تقدم هذه الورقة EchoNet وEchoNet++، نظامًا ومجموعة بيانات تحولان الصوت الفوضوي لبثّات كرة القدم الاحترافية من دول عديدة إلى نصٍّ نظيف وقابل للبحث يمكن للحواسيب تحليله. هذا يجعل من الممكن دراسة التكتيك والعاطفة وسرد الأحداث عبر البطولات واللغات بمقياس لا يمكن لأي فريق بشري من المترجمين مجاراته.
من الملعب الصاخب إلى إشارة نظيفة
المباريات المبثوثة تلفزيونيًا تكون فوضوية من الناحية الصوتية. يتحدث المعلّقون فوق هتافات الجمهور، وموسيقى الملعب، وانفجارات التصفيق المفاجئة. الأدوات السابقة كانت تعيد غالبًا هذه الضوضاء الخام مباشرة إلى برمجيات التعرف على الكلام، التي كانت تكافح مع تداخل الأصوات وتبدّل اللغات وسوء جودة الصوت. يتعامل EchoNet مع المشكلة كسلسلة هندسية من المعالجات بدلاً من نموذج واحد ذكي. يبدأ باستخراج المسار الصوتي من فيديوهات المباراة الكاملة وتحويله إلى صيغة قياسية وعالية الجودة. ينتقل النظام بعد ذلك إلى المجال الترددي، مركزًا على النطاق الذي تعيش فيه أصوات البشر مع قمع التردّدات المنخفضة المزعجة والطنين الحاد. أداة تعلم عميق تُدعى Demucs تفصل بعد ذلك الأصوات الشبيهة بالكلام عن الباقي، تاركة مسارًا أوضح بكثير للمراحل اللاحقة لتفسيره.

تعلّم الآلات التفريق بين الأصوات والضجيج
بعد تنظيف الصوت، يجب على EchoNet أن يقرر متى يتكلم شخص فعليًا وما إذا كان ذلك الصوت يعود إلى معلّق أو إلى الجمهور. لهذا يستخدم المؤلفون كاشف نشاط صوتي عصبي يمسح الصوت في نوافذ قصيرة ويصنّف كل لحظة ككلام أو غير كلام. تُفحص أجزاء الكلام المكتشفة بعد ذلك بدقة أكبر. تُوسم المقاطع التي تظهر الإيقاع والبنية الثابتة للغة المنطوقة كتعليقات، بينما تُوسم المقاطع التي تبدو كموجات طاقة فوضوية كتصريحات جمهور. هذه الفصلة مهمة: جمل المعلّق تحمل معنى تكتيكيًا وسرديًا، بينما تُمثّل ردود فعل الجمهور عادة قممًا عاطفية مثل الأهداف أو الضربات القريبة. من خلال فصل هذه المصادر، يمكن للنظام أن يتعامل معها بشكل مختلف في التحليلات اللاحقة.
تحويل لغات متعددة إلى قصة واحدة
يدفع EchoNet كل مقطع تعليقات إلى عدة نسخ من نموذج Whisper للتعرّف الآلي على الكلام، بما في ذلك نسخ قياسية ومُحسّنة للسرعة. هذه النماذج تدربت على مئات الآلاف من الساعات من الصوت متعدد اللغات، مما يجعلها مناسبة لبطولات أوروبا الرئيسية حيث ينتقل المذيعون بين الإنجليزية والألمانية والإسبانية والإيطالية والفرنسية ولغات أخرى. يسجل النظام توقيت كل مقطع ولغته ونصّه في ملفات JSON منظمة مرتبطة أنصاف المباراة. بالنسبة للمقاطع غير الإنجليزية، يُقدّم EchoNet أولًا التفريغ النصي باللغة الأصلية ثم يرسل النص إلى محرك ترجمة للحصول على نسخ إنجليزية. يحافظ هذا التصميم ذي الخطوتين على فصل أخطاء التفريغ والترجمة، مما يساعد الباحثين على تصحيح الأخطاء ومقارنة سلوكيات خاصة بكل لغة.
قياس مدى فعالية النظام
نظرًا لأن سلسلة المعالجة قوتها تقاس بأضعف حلقاتها، يقيم المؤلفون EchoNet من زوايا متعددة. يقدمون مقياس "دقة التقرير" الجديد الذي يحول معدلات الخطأ الكلمية التقليدية إلى نسبة مئوية أكثر بديهية للمحتوى الصحيح عمليًا. على ثلاث مجموعات بيانات — بما في ذلك مجموعة EchoNet++ الجديدة التي تحتوي على 20 مباراة كاملة — يؤدي المعالجة المسبقة باستخدام EchoNet باستمرار إلى خفض أخطاء التفريغ وزيادة دقة التقرير بعدة نقاط لكل نموذج Whisper مُختبر. كما تتحسّن مقاييس جودة الإشارة، التي تُقدّر مدى وضوح الكلام للمستمع البشري، بشكل ملحوظ بعد الترشيح وإزالة الضجيج والتطبيع. تظهر دراسات الإلغاء، التي تُزال فيها مكونات فردية مثل مرشح النطاق أو كاشف الصوت، أن كل مرحلة تساهم بشكل ذي معنى في كل من الوضوح والصحّة.

ماذا يعني ذلك للمشجعين والمحللين
بعبارات بسيطة، يوفر EchoNet وEchoNet++ طريقة موثوقة لتحويل ساعات من تعليقات المباريات الصاخبة ومتعددة اللغات إلى نصوص نظيفة ومحاذية زمنيًا ومؤشرات جماهيرية. مع هذا الأساس، يمكن للمطوّرين اكتشاف الأحداث الرئيسية آليًا من نبرة المعلّق وكلماته، ومطابقة تلك اللحظات مع ذروات تفاعل الجمهور، وبناء ملخصات مفصّلة أو مقاطع أبرز تلقائيًا دون تسجيل يدوي. والأهم أن مجموعة البيانات والشيفرة مطروحتان للاستخدام البحثي، مما يمنح المجتمع منصة مشتركة قابلة للتكرار لدراسة كرة القدم عبر الصوت. بالنسبة للمشجعين والمحللين على حد سواء، يدفع هذا العمل تغطية الرياضة نحو مستقبل يصبح فيه مسار صوت المباراة قابلاً للبحث والتحليل مثل الفيديو نفسه.
الاستشهاد: Majeed, F., Nazir, M., Agus, M. et al. EchoNet++: A multilingual soccer match audio commentary dataset. Sci Rep 16, 8884 (2026). https://doi.org/10.1038/s41598-026-39884-8
الكلمات المفتاحية: تحليلات كرة القدم, الصوت الرياضي, التعرّف على الكلام, التعليقات متعددة اللغات, تحليل البث