Clear Sky Science · ar
تحسين YOLOv11n لاكتشاف الأجسام الصغيرة في صور الطائرات بدون طيار: دقة أعلى مع عدد أقل من المعاملات
لماذا يهم اكتشاف الأشياء الصغيرة من السماء
أصبحت الطائرات الصغيرة الآلية جزءًا من الحياة اليومية بسرعة، من مراقبة المرور والاستجابة للكوارث إلى توصيل الطرود. لكن هناك مشكلة مزمنة: عندما تنظر طائرة بدون طيار إلى الأسفل من مئات الأمتار، تتحول الأشخاص والسيارات والقوارب إلى بضعة بكسلات فقط. غالبًا ما تفشل أنظمة الرؤية الحاسوبية القياسية في رصد هذه النقاط الصغيرة أو تخلط بينها وبين ضوضاء الخلفية. تقدم هذه الورقة نسخة أذكى وأكثر خفة من نظام كشف شائع، YOLOv11n، مُعدّة خصيصًا لاكتشاف هذه الأجسام الصغيرة في صور الدرون مع الحفاظ على كفاءة التشغيل على حواسب متنقلة خفيفة الوزن.
رؤية أكثر في التفاصيل الصغيرة والمشوشة
صور الدرون بيئة قاسية للخوارزميات. معظم الأهداف أصغر من 32×32 بكسل، وكثير منها أقل من 16 بكسل عبر القطر. الحركة والاهتزاز وتغير الإضاءة والضباب وخلفيات المدن المزدحمة تجعل هذه الأهداف الصغيرة أكثر صعوبة في التمييز. وفي الوقت نفسه، تعتمد الطائرات غالبًا على معالجات متواضعة وطاقة محدودة، لذا فإن النماذج الثقيلة غير عملية. يبدأ المؤلفون من YOLOv11n، كاشف صغير يعمل في الزمن الحقيقي، ويعيدون تصميم مكوناته الداخلية لاستخراج معلومات أكثر فائدة من المناطق الصغيرة قليلة التباين دون تضخيم النموذج. هدفهم بسيط لكنه متطلب: تحسين ملحوظ في دقة اكتشاف الأجسام الصغيرة، مع عدد من المعاملات القابلة للتعلم مساوٍ أو أقل وسرعة مقبولة على عتاد الحافة.

التعلم من المشهد على مقاييس متعددة
التحسين الأول يركز على كيفية «رؤية» الشبكة للمشهد. بدلاً من المراقبة من خلال نافذة ذات حجم ثابت، تراقب الوحدة الجديدة للاختيار التكيفي لميزات الحواف متعددة المقاييس (MSEAF) الصورة بعدة مقاييس في آن واحد. تلتقط الرؤى الخشنة تخطيط الطرق والمباني والجماهير الأوسع، بينما تتابع الرؤى الدقيقة السيارات أو الأشخاص الفرديين. خطوة تعزيز الحواف تؤكد على الحدود والأشكال التي يراها البشر بوضوح ولكنها غالبًا ما تختفي في رقع الصور الصغيرة. ثم يعزز آلية دمج ذكية المناطق الأكثر إعلامية مع كبح ضوضاء الخلفية. هذه التمثيلات متعددة المقاييس والواعية بالحواف تمنح بقية الشبكة نقطة بداية أغنى للعثور على الأجسام صعبة الرؤية.
الحفاظ على الأجسام الصغيرة عبر مسار المعالجة
تعمل شبكات YOLO التقليدية على تصغير خرائط الميزات بشكل متكرر أثناء تدفق المعلومات من المدخل إلى المخرج. بالنسبة للأجسام الكبيرة، هذا مقبول، لكن بالنسبة للصغيرة قد يكون قاتلًا: بعد عدة جولات من خفض العينة، قد يشغل مشاة شخص بكسلًا أو بكسلين فقط في خريطة داخلية، أو يختفي تمامًا. لمنع ذلك، يعيد المؤلفون تشكيل الجزء الأوسط «الرقبة» من الشبكة ويضيفون رأس كشف جديد P2 يعمل على ميزات ذات دقة أعلى. تجمع وحدات مخصصة تسمى ScalCat وScal3DC بعناية معلومات من طبقات مختلفة بحيث تعزز التفاصيل الدقيقة من الطبقات السطحية والسياق الأغنى من الطبقات الأعمق بعضها بعضًا. النتيجة هي كاشف يتتبع السيارات والأشخاص الصغار عبر مقاييس متعددة، بدلًا من التضحية بها من أجل السرعة.

قرارات أدق بعدد أقل من المعاملات
الخطوة الأخيرة هي تبسيط مرحلة التنبؤ، المعروفة برأس الكشف. في التصميم الأصلي، كانت الطبقات الأعمق ذات القنوات الكثيرة مخصصة في الغالب للأجسام الكبيرة، التي تكون نادرة نسبيًا في مشاهد الدرون. يقوم رأس الكشف المشترك المعاد البرمجة (SRepD) بتسوية عدد القنوات عبر المقاييس ويستخدم خدعة تدريب ذكية: أثناء التعلم، تستكشف عدة فروع الالتفاف المتخصصة طرقًا مختلفة لتسليط الضوء على الميزات؛ عند الاستدلال، تُدمج هذه الفروع رياضيًا إلى التفاف واحد بسيط. هذا التصميم المشترك المعاد برمجته يحسن كيف تُدمج الميزات بينما يقلل فعليًا عدد المعاملات ويحافظ على قابلية الحساب لأجهزة الحافة.
ماذا تقول الأرقام في اختبارات العالم الواقعي
تم اختبار النموذج المحسّن على ثلاث مجموعات بيانات عامة تحدّية: VisDrone2019 (مشاهد حضرية مختلطة)، TinyPerson (أشخاص صغيرون جدًا على اليابسة والبحر)، وHazyDet (مركبات في ضباب كثيف من منظور طائرة بدون طيار). على VisDrone2019، يعزز التصميم الجديد مقياس دقة رئيسي (mAP50) والدقة بمقدار 4.6 نقاط مئوية مقارنةً بـ YOLOv11n الأصلي، بينما يقلل المعاملات بحوالي 8.5 بالمئة. على TinyPerson، تكون التحسينات أكبر—نحو 5.9 نقطة مئوية في mAP50 و5.6 في الدقة—مع تقليل مماثل في المعاملات، ويتفوق النموذج المدمج حتى على YOLOv11s الأكبر بكثير والذي يستخدم أربع مرات عدد المعاملات. في ظروف الضباب، يتجاوز الكاشف المطوّر أيضًا الخط الأساس عبر مقاييس الدقة والمتانة، وكل ذلك مع الحفاظ على سرعات زمن حقيقي على لوحة الحافة منخفضة الطاقة Huawei Atlas 200 DK.
لماذا يهم هذا للاستخدام اليومي للطائرات بدون طيار
لغير المتخصصين، الخلاصة الرئيسية هي أن هذا البحث يبيّن أن الطائرات بدون طيار يمكن أن تصبح أكثر حدة في الرؤية وأكثر كفاءة في الموارد في الوقت نفسه. من خلال إعادة التفكير في أماكن وكيفية بحث الشبكة عن التفاصيل، والحفاظ على معلومات عالية الدقة للأهداف الصغيرة، وتبسيط آلية التنبؤ، يكسر المؤلفون مقايضة الدقة والحجم المعتادة. النظام الناتج أفضل في رصد الأشخاص والمركبات الصغيرة والبعيدة في مشاهد مزدحمة أو ضبابية أو معقدة دون الحاجة إلى عتاد ضخم. هذا النوع من التقدم يقرب مراقبة جوية موثوقة في الزمن الحقيقي لسلامة المرور والبحث والإنقاذ والمراقبة البيئية من التطبيق اليومي.
الاستشهاد: Zhu, H., Xie, X. Enhanced YOLOv11n for small object detection in UAV imagery: higher accuracy with fewer parameters. Sci Rep 16, 5536 (2026). https://doi.org/10.1038/s41598-026-35301-2
الكلمات المفتاحية: كشف الأجسام بالطائرات الدرون, التعرف على الأشياء الصغيرة, شبكة YOLO العصبية, تحليل الصور الجوية, الذكاء الاصطناعي الحيدي للطائرات بدون طيار