Clear Sky Science · ar

DeCon-Net: تباين هرمي مفصول لاكتشاف الأجسام في كرة القدم

· العودة إلى الفهرس

لماذا رصد اللاعبين والكرة أصعب مما يبدو

تزدحم بثوث مباريات كرة القدم الحديثة بالرسوم البيانية والإحصاءات والإعادات الفورية، وكلها تعتمد على أنظمة حاسوبية يجب أن تجيب أولاً عن سؤال يبدو بسيطاً: أين اللاعبون والكرة في كل لقطة؟ تتناول هذه الورقة سبب معاناة أدوات الذكاء الاصطناعي الرائدة اليوم من هذه المهمة الأساسية في المباريات الحقيقية—وتقدم طريقة جديدة، DeCon‑Net، تجعل الاكتشاف الآلي للاعبين والكرة أكثر موثوقية بكثير، لا سيما في المشاهد المزدحمة والفوضوية.

Figure 1
Figure 1.

ثلاث مشكلات خفية في فيديوهات كرة القدم

للوهلة الأولى، يبدو كشف اللاعبين والكرة أمراً مباشراً: إنهم يتحركون، لهم أشكال مميزة، ويبرزون على أرض الملعب. لكن الباحثين يوضحون أن أنظمة الرؤية الحاسوبية القياسية تعاني من ثلاث مشاكل مترابطة. أولاً، يصبح زملاء الفريق الذين يرتدون نفس الزي شبه غير مميزين للخوارزمية، حيث تنهار أوصاف الميزات الداخلية الخاصة بهم إلى نقاط متشابهة للغاية. ثانياً، في الالتحامات المزدحمة تتداخل أجسام اللاعبين بحيث يرسم الكاشف أحياناً مربع حدود واحداً كبيراً حول عدة أشخاص بدلاً من مربعات منفصلة لكل فرد. ثالثاً، الكرة صغيرة للغاية—أحياناً بضع عشرات من البكسلات فقط—ومصدرها البصري ضعيف لدرجة أنه يمكن أن يغمره نسيج العشب وحركة اللاعبين، مما يؤدي إلى فقدان النظام لها تماماً.

تفكيك ما يتعلمه الشبكة

يتناول DeCon‑Net هذه القضايا بتغيير كيفية تمثيل الشبكة العصبية لما تراه في الإطار. بدلاً من السماح للنموذج بتعلّم وصف مركب واحد لكل جسم، يقسم المؤلفون ذلك الوصف إلى جزأين متممين. يلتقط مجرى واحد ما يشترك فيه لاعبو نفس الفريق—مثل لون القميص—بينما يركز المجرى الآخر على ما يميز كل فرد على حدة، مثل وضعية الجسم أو الموضع الدقيق. خدعة تدريب خاصة تعكس التدرج لمجرى "الفرد" كلما حاولت الشبكة استخدام معلومات الفريق هناك، مما يعلّمه فعلياً تجاهل لون القميص والتركيز على دلائل مميزة للفرد. ثم تُعاد دمج المجرين بشكل تكيفي، بحيث يمكن للنظام الاعتماد أكثر على السمات المشتركة في المشاهد البسيطة وأكثر على السمات الفردية عندما يتكدس اللاعبون معاً.

تدريب النموذج بالمقارنات، لا بالوسوم فقط

بعيداً عن هذا التمثيل المقسوم، يعيد DeCon‑Net تشكيل عملية التعلم نفسها. تضيف الطريقة خطوة تدريب "تباينية" هرمية تقارن باستمرار أزواجا من الأجسام المكتشفة. تُعطى الأزواج التي تختلف بوضوح دفعات لطيفة، بينما تُدرّب الأزواج التي تبدو مشوشة ومتشابهة—مثل زميلين واقفين جنباً إلى جنب—بشكل أكثر عدوانية لتحريكها بعيداً في فضاء الشبكة الداخلي. تبدأ هذه الاستراتيجية ثلاثية المستويات بالتمييزات السهلة، ثم تنتقل إلى فروق أدق داخل الفريق، وأخيراً إلى اختلافات بين مباريات وظروف بث مختلفة. ولإنقاذ الكرة الصغيرة من التجاهل، تزيد الطريقة أيضاً من تأثير الأجسام صغيرة الحجم أثناء التدريب، مما يجعل إشارة الكرة تبرز بدلاً من أن تتلاشى ضمن ضوضاء الخلفية.

من مقاييس المختبر إلى بثوث الرياضة الحقيقية

اختبر الباحثون DeCon‑Net على مجموعتي بيانات متطلبتين: SportsMOT، التي تشمل كرة القدم وكرة السلة والكرة الطائرة، وSoccerNet‑Tracking، المبنية من بثوث تلفزيونية حقيقية مع تكبيرات الكاميرا، وطمس الحركة، وحجب متكرر. عبر اللوحة، اكتشف DeCon‑Net كل من اللاعبين والكرات بدقة أعلى من الأنظمة الشائعة المبنية على Faster R‑CNN وDETR والطرق الحديثة الموجهة للتتبع. كانت المكاسب ملحوظة بشكل خاص بالنسبة للكرة، مع ارتفاع الدقة بأكثر من 40 في المئة مقارنةً بالأساسيات القوية. كما أن النظام حافظ على أداء أفضل عند تطبيقه على مجموعة بيانات مختلفة عن تلك التي تدرب عليها، مما يوحي بأن تصميم الميزات المقسوم يلتقط دلائل أكثر عمومية وقابلة لإعادة الاستخدام لمشاهد الرياضة.

Figure 2
Figure 2.

ماذا يعني هذا لمستقبل تحليل الرياضة

بعبارات عامة، تُظهر الورقة أن العديد من أنظمة الذكاء الاصطناعي الحالية "تُرى" كرة القدم بطريقة مبسطة أكثر من اللازم: تجمع لاعبي نفس الفريق معاً وتتجاهل الكرة تقريباً عندما يحتدم اللعب. يواجه DeCon‑Net هذا من خلال إجبار الشبكة على تعلّم من ينتمي لأي فريق ومن هو أي فرد على حدة، مع إيلاء اهتمام إضافي للأجسام الصغيرة التي يسهل تفويتها. النتيجة خريطة أكثر دقة وموثوقية لكل لاعب والكرة على أرض الملعب، إطاراً تلو الآخر. يمكن أن يؤسس هذا لمزيد من التحليلات التكتيكية الدقيقة للمدربين، ورسومات أغنى للمذيعين، وإحصاءات أكثر دقة للمشجعين، مقرباً إيانا من فهم آلي ذكي وحقيقي للعبة.

الاستشهاد: Ouyang, Q., Du, T. & Li, Q. DeCon-Net: decoupled hierarchical contrast for soccer object detection. Sci Rep 16, 7571 (2026). https://doi.org/10.1038/s41598-026-39084-4

الكلمات المفتاحية: تحليل فيديوهات كرة القدم, كشف الأجسام, تحليلات رياضية, رؤية حاسوبية, تتبع الكرة