Clear Sky Science · ar
YOLC مع اهتمام متفرق ديناميكي لاكتشاف الأهداف الصغيرة عالية السرعة في صور رياضية قابلة للارتداء
رؤية الرياضة من منظور اللاعب
تخيل مشاهدة إرسال في كرة التنس أو تبادل ضربات في كرة الطاولة ليس من المدرجات، بل عبر كاميرا موضوعة على رأس الرياضي. الكرة تتحرك بسرعة عبر مجال الرؤية كبقعة ضبابية صغيرة، ومع ذلك يتمنى المدربون والمحلّلون معرفة مكانها بدقة، وسرعتها، وكيف تفاعل اللاعبون. تقدم هذه الورقة نظام رؤية حاسوبية جديد يسمى YOLC مصمم لرصد ومتابعة هذه الأجسام السريعة والصغيرة في الزمن الحقيقي على أجهزة قابلة للارتداء ذات استهلاك طاقة منخفض.
لماذا يصعب التقاط أهداف صغيرة وسريعة
أصبحت الكاميرات القابلة للارتداء شائعة في التدريب الرياضي، تلتقط فيديو بزاوية الشخص الأول للمباريات والتمارين. لكن من هذا المنظور، تكون الأجسام الحاسمة – ريشة الريشة، كرة التنس، قدم العداء عند الانطلاق – غالباً ما تشغل عددًا قليلاً فقط من البيكسلات وتتحرك سريعًا بين الإطارات. الأنظمة الحالية إما ثقيلة جدًا لتعمل على أجهزة منخفضة الطاقة أو تفقد التتبع عندما تكون الأجسام صغيرة أو مشوشة أو بعيدة. يبيّن المؤلفون أنه في لقطات رياضية حقيقية العديد من الأهداف أصغر من 32×32 بيكسل وتتحرك بسرعة بين الإطارات بحيث تفشل الأساليب التقليدية في رصدها أو تفقد هويتها مرارًا، مما يكسر المسارات ويقوّض أي تحليل أداء جاد.

خط معالجة بصري خفيف للكاميرات القابلة للارتداء
يقدّم الباحثون YOLC (اختصارًا لـ “You Only Look Clusters”)، خط معالجة كامل للاكتشاف والتتبع مُصمَّم لعتاد الحافة مثل NVIDIA Jetson Nano. في قلبه مُستخرج ميزات مبسّط مبني على عائلة شبكات عصبية كفؤة معروفة باسم MobileNet، أعيد تشكيلها لاستخدام عمليات «رخيصة» إلى حد كبير تقلل من الذاكرة والحساب مع الحفاظ على تفاصيل كافية لرؤية الأجسام الصغيرة. تُعاد تحجيم إطارات الفيديو إلى دقة متوازنة وتُنتج ثلاث مستويات من خرائط الميزات: واحدة تبرز التفاصيل الدقيقة للأهداف الصغيرة، وأخرى للأجسام المتوسطة، وثالثة ذات دلالات عالية المستوى للأجسام الكبيرة أو البعيدة. تغذي هذه الخرائط متعددة المقاييس بقية النظام، الذي صُمم بعناية لاستخلاص أكبر قدر من المعلومات من كل عملية حسابية.
السماح للشبكة بالنظر فقط حيث يهم
ابتكار مركزي هو آلية «انتباه متفرق ديناميكي» تحاكي كيف قد يلتقط الإنسان بنظرة سريعة فقط أكثر أجزاء المشهد معلوماتية. بدلاً من معالجة كل بيكسل بالتساوي، يقيس YOLC مقدار التغير المحلي في الصورة – مثل الحواف والزوايا أو محيط كرة متحركة – ويُنشئ خريطة توضح أين تكون النسيجية أكثر بروزًا. ثم يحتفظ فقط بما يقارب أعلى 30٪ من هذه المواقع ذات الاستجابة العالية للمعالجة اللاحقة، مغلقًا عمليًا مناطق الخلفية المزعجة مثل الجدران أو المدرجات أو السماء. خدعة تدريب خاصة تسمح للنموذج بالبقاء قابلاً للتدريب بالكامل رغم هذا القطع الحاد. هذا التركيز الانتقائي لا يُحسّن الدقة بتجاهل المشتتات فحسب، بل يقلّص أيضًا كمية العمل التي يجب أن تقوم بها الشبكة، وهي ميزة حاسمة على أجهزة القابلة للارتداء التي تعمل بالبطارية.

من الميزات الحادة إلى المسارات المستقرة
بعد التركيز على المناطق الأساسية، يجمع YOLC المعلومات عبر المقاييس باستخدام هرم ميزات ثنائي الاتجاه يمرر الإشارات من الخشن إلى الدقيق ومن الدقيق إلى الخشن. تُوجَّه قوة هذه الروابط بنفس خريطة الانتباه، لذلك تُضخّم الأجسام الصغيرة المهمة في كل مرحلة. في خطوة الكشف النهائية، تساعد وحدة «انتباه الإحداثيات» الإضافية النظام على فهم موقع الأجسام داخل الإطار بشكل أفضل بربط الإشارات على المحورين الأفقي والعمودي. لتحويل الاكتشافات إطارًا بإطار إلى تتبعات سلسة عبر الزمن، تُضاف وحدة تدفق بصرية خفيفة الوزن – أداة تُقدّر كيفية تحرك البيكسلات بين الإطارات المتتالية – ومخطط مطابقة ذو مرحلتين يقرن أولاً الاكتشافات عالية الثقة مع المسارات القائمة، ثم يعيد بحذر استخدام المربعات الأقل ثقة التي تتوافق مع الحركة المتوقعة. معًا تقلل هذه القطع من تبدلات الهوية والفجوات، حتى عندما تتقاطع الأجسام أو تختفي مؤقتًا.
الأداء في العالم الحقيقي
اختبر الفريق YOLC على مجموعة بيانات رياضية مخصصة تتضمن الريشة الطائرة، كرة السلة، التنس، العدو السريع، وكرة الطاولة، جميعها مُلتقطة بكاميرا مركبة على الرأس في بيئات تدريب حقيقية. على هذه المادة التحدّية، يعمل النظام بمعدل 53.5 إطارًا في الثانية مع 1.78 مليون معلمة فقط، أقل بكثير من العديد من كاشفات الأجسام الشائعة. يحقق درجة كشف (mAP@0.5) بقيمة 75.3٪ واستدعاء للأجسام الصغيرة يزيد عن 80٪، متفوقًا على عدة نماذج خفيفة معروفة. في معايير التتبع يحافظ YOLC على مسارات أطول وأكثر موثوقية ويقلّل بشكل كبير تبدلات الهوية. كما يثبت متانته تحت ضباب الحركة واهتزاز الكاميرا، مخفّضًا تقريبًا بمقدار النصف معدل الإنذارات الكاذبة مقارنة بالأساليب المنافسة.
ماذا يعني هذا للرياضة وما بعدها
للمدربين والمحلّلين ومصنّعي المعدات الرسالة واضحة: الفهم الدقيق والزمني الفعلي للحركات الرياضية السريعة لا يجب أن يعتمد على خوادم ضخمة أو لقطات تلفزيونية نقية. من خلال اتخاذ قرارات دقيقة حول أين ومتى تُنفَق العمليات الحاسوبية، يحول YOLC مقاطع الفيديو الشخصية الصاخبة من الكاميرات القابلة للارتداء إلى سجلات مفصّلة عن كيفية تحرك الأجسام الصغيرة والسريعة وتفاعلها مع الرياضيين. يمكن أن يمكّن ذلك من تغذية راجعة أغنى أثناء التدريب، ورقابة أكثر أمانًا في الرياضات عالية الشدة، وبشكل أوسع أنظمة رؤية أذكى على أي جهاز صغير يجب أن يرى بوضوح ضمن حدود مادية صارمة.
الاستشهاد: Chen, H., Song, Y., Liu, W. et al. YOLC with dynamic sparse attention for high-speed small target detection in wearable sports images. Sci Rep 16, 6858 (2026). https://doi.org/10.1038/s41598-026-38079-5
الكلمات المفتاحية: رؤية رياضية قابلة للارتداء, اكتشاف الأجسام الصغيرة, التتبع في الزمن الحقيقي, ذكاء اصطناعي على الحافة, آليات الانتباه