Clear Sky Science · ar

الكشف عن الأشياء في الوقت الحقيقي للطائرات غير المأهولة بناءً على محول الرؤية وحوسبة الحافة

· العودة إلى الفهرس

عيون أكثر ذكاءً في السماء

أصبحت الطائرات غير المأهولة — المسيرات — أدوات شائعة بسرعة لأعمال مثل تفقد الجسور، ومراقبة حركة المرور، والبحث عن المفقودين. لكن حتى تساعد المسيرة فعلاً في هذه المهام الحساسة للزمن، عليها أن تفعل أكثر من مجرد تصوير العالم؛ يجب أن تتعرف على أشياء صغيرة في الوقت الحقيقي أثناء طيرانها ببطارية محدودة وكمبيوتر صغير على متنها. تعرض هذه الورقة طريقة جديدة لمنح المسيرات "عيونًا" أكثر حدة وسرعة من خلال الجمع بين تقنية ذكاء اصطناعي متقدمة تُدعى محول الرؤية والاستخدام الذكي لأجهزة حوسبة الحافة القريبة، بحيث يمكن اكتشاف أجسام صغيرة مثل المشاة والدراجات والسيارات بسرعة وموثوقية من الجو.

Figure 1
الشكل 1.

لماذا تكافح المسيرات لرؤية التفاصيل الصغيرة

من على ارتفاع عالٍ عن الأرض، قد تتقلص الأشخاص والمركبات إلى بضعة عشرات من البكسلات في إطار الفيديو. الأنظمة التقليدية للشبكات العصبية المستخدمة على المسيرات مصممة للعمل بسرعة على رقائق منخفضة الطاقة، لكنها غالبًا ما تفوّت هذه الأشياء الصغيرة أو تفشل عند تغير الإضاءة أو زاوية العرض. نماذج محول الرؤية الأحدث، المقتبسة من عالم معالجة اللغة، أفضل بكثير في فهم المشهد ككل واستخلاص التفاصيل الصغيرة من خلفيات مزدحمة. المشكلة أنها عادةً تتطلب قوة حوسبة هائلة، تفوق بكثير ما يمكن أن تحمله منصة طائرة. سعى المؤلفون لسد هذه الفجوة: الحفاظ على بصر المحول الحاد، لكن تقليص حجمه بما يكفي لتشغيله في الوقت الحقيقي على مسيرة، وإسناد العمل الإضافي إلى خادم حافة قريب فقط عندما تسمح الظروف.

عقل منقسم: المسيرة والحافة تعملا معًا

يقسم الإطار المقترح العمل بين المسيرة وجهاز حافة أرضي. تبث كاميرا المسيرة فيديو عالي الدقة إلى وحدة معالجة أولية على متن الطائرة تقوم بتثبيت اللقطات المهتزة، وضبط السطوع، وتغيير حجم الصور ديناميكيًا اعتمادًا على مقدار قوة الحوسبة المتاحة. يستخرج محول رؤية خفيف الميزات الغنية من كل إطار، ويغذي رأس اكتشاف يتنبأ بمواقع الأشياء وطبيعتها. يراقب مُجدول التأخير في الشبكة اللاسلكية ومستوى البطارية وحِمل المعالجة. عندما تكون الوصلة إلى الأرض سريعة ومستقرة، يمكن دفع مهام أُثقل — مثل معالجة دفعات من الإطارات أو تشغيل نماذج تعزيز الدقة الإضافية — إلى خادم الحافة. عندما تتدهور الاتصال، يتحول النظام تلقائيًا إلى المعالجة المستقلة كليًا على متن الطائرة حتى لا تضطر المسيرة إلى "الطيران وهي عمياء".

تقليص النموذج دون فقدان البصر

لجعل المحول صغيرًا وسريعًا بما يكفي، يعيد المؤلفون تصميم آلياته الداخلية. بدلًا من السماح لكل جزء من الصورة بمقارنة نفسه بكل جزء آخر — عملية تنمو بشكل تفجري مع الدقة — يقيدون الانتباه إلى نوافذ محلية تنزلق عبر الصورة، مما يخفض تكلفة الحوسبة إلى مستويات أكثر قابلية للإدارة. بالإضافة إلى ذلك، يقوم مخطط تقليم ديناميكي بتقييم المناطق في الصورة باستمرار لتحديد أيها يحتوي معلومات مفيدة وأيها عبارة عن خلفية فارغة إلى حد كبير. تُسقَط الرموز (التوكنات) التي تُحكم عليها بأنها غير معلوماتية مبكرًا لتوفير الوقت والذاكرة، بينما تحتفظ المشاهد المعقدة والمزدحمة بالمزيد من التفاصيل. يبني النموذج أيضًا هرمًا متعدد المقاييس من الميزات بحيث يمكن اكتشاف كل من المشاة الصغار والمركبات الأكبر في نفس الإطار. جنبًا إلى جنب مع الكمّ الدقيق (باستخدام عدد أقل من البتات لكل قيمة)، وقص القنوات، وتحسينات برمجية منخفضة المستوى، تقلل هذه التغييرات الحسابات المطلوبة بحوالي ثلثيها مع الحفاظ على أكثر من 94% من الدقة الأصلية.

Figure 2
الشكل 2.

اختبار النظام عمليًا

يقيم الفريق تصميمهم على مجموعة بيانات جوية كبيرة جُمعت من معايير عامة للمسيرات وآلاف الصور الجديدة المأخوذة فوق مدن وريف وضواحي في مواسم وظروف إضاءة مختلفة. على حاسوب مضمن شائع الاستخدام في المسيرات، NVIDIA Jetson Xavier NX، يعمل نظامهم بحوالي 39 إطارًا في الثانية — سرعة كافية للتشغيل في الوقت الحقيقي — مع تحقيق دقة أعلى من كاشفات خفيفة واسعة الانتشار مثل متغيرات YOLO. على وجه الخصوص، هو أفضل بشكل ملحوظ في اكتشاف الأشياء الصغيرة، مع مكسب يقارب سبع نقاط مئوية في الدقة المتوسطة مقارنةً بالشبكات الالتفافية التقليدية. تُظهر تجارب ميدانية أُجريت على منصة مسيرة تجارية لمدة أسبوع أن النظام يحافظ على الأداء على الرغم من اهتزاز الكاميرا وتغير الإضاءة وتقلب الاتصال اللاسلكي، وأنه يمكنه الانتقال بسلاسة بين أوضاع المساعدة بالحافة والمعالجة الكاملة على متن الطائرة أثناء الرحلات الحقيقية.

ماذا يعني هذا لمهمات المسيرات في العالم الحقيقي

بعبارات بسيطة، تُظهر هذه الدراسة أنه من الممكن منح المسيرات رؤية أوضح وأكثر موثوقية دون ربطها بحاسوب بمستوى مركز بيانات. من خلال إعادة تصميم محول الرؤية ليكون رشيقًا، والتركيز الانتقائي على أكثر أجزاء كل صورة إفادة، وتنسيق عمل المسيرة مع خادم حافة قريب عندما يتاح ذلك، يقدم المؤلفون كاشفًا يرى أكثر ويفوت أقل ولا يزال يعمل في الوقت الحقيقي ضمن قيود صارمة للطاقة والذاكرة. هذا يجعل مهام البحث والإنقاذ، وتقييم الكوارث، وتفقد البنية التحتية أكثر أمانًا وفعالية، لأن المسيرات يمكنها تمييز تفاصيل صغيرة وحاسمة — مثل شخص عالق أو كابل متضرر — بالضبط عندما كل ثانيةٍ تهم.

الاستشهاد: Zhu, W., Chen, K. Real-time object detection for unmanned aerial vehicles based on vision transformer and edge computing. Sci Rep 16, 6814 (2026). https://doi.org/10.1038/s41598-026-37938-5

الكلمات المفتاحية: الطائرات المسيرة, كشف الأشياء, حوسبة الحافة, محول الرؤية, التصوير في الوقت الحقيقي