Clear Sky Science · ar

MDI-YOLO نموذج خفيف قائم على محول-انتشار التجمُّع متعدد الأبعاد لاكتشاف الأشياء الصغيرة

2026-02-04 · العودة إلى الفهرس

عيون أكثر حدة في السماء

من مراقبة المرور إلى الاستجابة للكوارث، تراقب الطائرات والسواتل عالمنا أكثر فأكثر. ومع ذلك، فالأشياء التي نهتم بها غالبًا في هذه الصور — سيارات صغيرة، أشخاص، زوارق، وطائرات — تظهر أحيانًا كقليل من البكسلات فقط. الورقة البحثية حول MDI‑YOLO تتناول سؤالاً بسيطاً لكن حاسماً: كيف يمكن لأجهزة الحاسوب اكتشاف هذه الأشياء الصغيرة بثبات وبالزمن الحقيقي، حتى على الأجهزة منخفضة الطاقة المحمولة على متن الطائرات بدون طيار؟

لماذا يصعب رصد الأشياء الصغيرة

في المشاهد الجوية والفضائية، تكون الأجسام المراد رصدها عادة صغيرة جداً، وكثيراً ما تكون متجمعة مع بعضها أو مخفية جزئياً بواسطة مبانٍ أو أشجار أو ظلال. تواجه أنظمة الكشف التقليدية مقايضة: النماذج الخفيفة تعمل بسرعة على أجهزة الحافة مثل حواسب الطائرة لكنها تفقد العديد من الأهداف الصغيرة؛ أما النماذج الأثقل والأدق فبطيئة وتستهلك موارد كبيرة بحيث لا تكون عملية ميدانياً. كما أن الأشياء الصغيرة تميل للاندماج في خلفيات معقدة — فكر في سيارات رمادية على طرق رمادية — لذا قد تختفي ملامحها المميزة عندما تُضغَط الصور أو تُعالَج عبر شبكات عميقة.

مزيج جديد من الرؤية العالمية والمحلية

يقترح الباحثون MDI‑YOLO، نسخة أعيد تصميمها من كاشف YOLOv8 الشائع تبقي النموذج مدمجاً مع تعزيز قدرته على إيجاد الأهداف الصغيرة. في جوهرها هناك كتلة بنائية جديدة تسمى C2f‑MCC، التي تقسم المعلومات البصرية المتدفقة عبر الشبكة إلى مسارين. يستخدم أحد المسارين معالجة على طراز المحولات (Transformer) التي تجيد التقاط العلاقات بعيدة المدى عبر الصورة بأكملها — مثل كيف يتناسب تجمع من البكسلات مع طريق أو مدرج أكبر. أما المسار الآخر فيتمسك بمرشحات الالتفاف التقليدية (Convolutional)، التي تتفوق في التقاط التفاصيل المحلية مثل الحواف والأنسجة. عن طريق تجميع القنوات وإرسال جزء فقط من البيانات عبر مسار المحول الأثقل، يكتسب النموذج وعيًا عالميًا دون التضخم في الحجم أو البطء في الأداء.

مساعدة الشبكة على التركيز على المهم

حتى مع كتل بنائية أفضل، لا تزال الشبكة تحتاج أن تقرر أين تُولي اهتمامها. لإرشاد هذا، يقدم المؤلفون آلية يسمونها الانصهار التوجيهي للانتباه (Directional Fusion Attention - DFA). يفحص هذا المكوّن الأنماط على امتداد عرض وارتفاع الصورة، بالإضافة إلى ملخص عام للمشهد، ويتعلم كيفية وزن المناطق والقنوات المميزة. عمليًا، يشجع DFA النموذج على التركيز على مناطق محتملة لوجود أجسام — مثل بقع على شكل مركبة على الطرق — وتقليل أهمية الأنماط الخلفية المتكررة أو المربكة. هذا التركيز المدمج مكانيًا وعلى مستوى القنوات يجعل من السهل فصل الأهداف الصغيرة عن المحيط المزدحم أو المناطق الخلفية المشابهة في المظهر.

رسم صناديق أكثر إحكاماً حول الأهداف الصغيرة

كشف الكائن هو نصف العمل؛ يحتاج الكاشف أيضاً إلى تحديد حدوده بدقة. تقارن طرق التدريب القياسية المستطيلات المتوقعة بتلك الحقيقية باستخدام مقياس "التداخل"، لكن هذا قد يكون غير حساس عندما تكون الأجسام صغيرة أو ذات أشكال غير معتادة. صمم المؤلفون دالة خسارة جديدة، Inner‑Shape‑IoU، والتي تقيم الصناديق ليس فقط بمدى تداخلها، بل أيضاً بمدى تطابق شكلها وحجمها والمنطقة المركزية معها. من خلال الجمع بين مقياسين مكملين، تفرض عقابًا على الصناديق التي تطابق الحواف فقط بينما تفشل في استهداف جوهر الجسم، ما يؤدي إلى حدود أكثر دقة — خاصة للأجسام الصغيرة أو المزدحمة أو المطوَّلة.

تحسينات مثبتة دون زيادة الحجم

لاختبار MDI‑YOLO، أجرى الفريق تجارب على مجموعتي معيار عامتين وتحديتين: VisDrone2019، التي تضم لقطات طائرات بدون طيار للمدن وحركة المرور، وDOTAv1.0، مجموعة كبيرة من المشاهد الجوية التي تحتوي على العديد من الأجسام الصغيرة والكثيفة. دون الاعتماد على نماذج مدرَّبة مسبقًا، حسّن MDI‑YOLO درجات الدقة القياسية بعدة نقاط مئوية مقارنة بنموذج YOLOv8 الأساسي بينما أبقى عدد المعلمات شبه ثابت وحافظ على أوقات استدلال سريعة. مقارنةً بمجموعة من الكواشف الشعبية — من متغيرات YOLO الخفيفة إلى الأنظمة الأثقل المعتمدة على المحولات — قدم النموذج مزيجًا نادراً من دقة عالية وتكلفة حسابية منخفضة ومتانة عبر مشاهد مختلفة.

ما يعنيه هذا للاستخدام في العالم الحقيقي

للغير متخصصين، الخلاصة أن MDI‑YOLO يمنح الطائرات وأنظمة الاستشعار عن بُعد "عيونًا" أكثر حدة وموثوقية دون الحاجة إلى حواسب كبيرة مستهلكة للطاقة. من خلال مزج ذكي للسياق العالمي، والتفاصيل المحلية، والانتباه المستهدف، وطريقة أكثر تمييزًا لتدريب مربعات الإحاطة، تجعل الطريقة اكتشاف الأشياء الصغيرة المهمة أكثر سهولة لأغراض السلامة والمراقبة والخرائط. هذا النوع من الرؤية الفعّالة والدقيقة خطوة أساسية نحو منصات جوية أذكى يمكنها العمل ذاتيًّا، والاستجابة بسرعة، والانتشار على نطاق واسع في العالم الحقيقي.

الاستشهاد: Shi, H., Wu, Y., Xu, Y. et al. MDI-YOLO a lightweight transformer-CNN-based multidimensional feature fusion model for small object detection. Sci Rep 16, 7233 (2026). https://doi.org/10.1038/s41598-026-38378-x

الكلمات المفتاحية: تصوير الطائرات بدون طيار, كشف الأشياء الصغيرة, الاستشعار عن بُعد, YOLO, رؤية الحاسوب