Clear Sky Science · ar

مراجعة كفاءة الطاقة لنماذج YOLOv8 الكبيرة وRT-DETR على أجهزة الحافة للكشف في الزمن الحقيقي

· العودة إلى الفهرس

كاميرات ذكية على الحافة

من طائرات التوصيل إلى كاميرات مراقبة المرور، تزداد الحاجة إلى أن تتعرف الأجهزة بنفسها على الأشخاص والأشياء بعيداً عن مراكز البيانات التي تستهلك طاقة كبيرة. تطرح هذه الورقة سؤالاً عملياً خلف هذا الاتجاه: هل يمكن لنماذج كشف الأشياء الكبيرة والعالية الدقة الحالية أن تعمل بسرعة وكفاءة على حواسب صغيرة مثل Raspberry Pi أو لوحات ذكاء اصطناعي مدمجة تستخدم في الروبوتات، من دون استنزاف البطاريات؟

Figure 1
Figure 1.

مخّتان متنافستان لاكتشاف الأشياء

يركز المؤلفون على اثنين من كواشف الأشياء الحديثة التي أصبحت عملاناً أساسياً في رؤية الحاسب. أولها، المسمى YOLOv8، تطوير مبسّط للشبكات العصبية التلافيفية التقليدية، التي طالما فضّلت لمزيجها من السرعة والدقة. الآخر، RT-DETR، يمزج هذه التلافيف مع كتل محول (Transformer)، نوع أحدث من الشبكات المستعار من نماذج اللغة الذي يتفوق في التقاط الأنماط طويلة المدى. تستخدم الدراسة النسخ الكبيرة من كلا النموذجين، المتقاربة تقريباً في الحجم، وتختبر كيفية أدائهما في اكتشاف الأشياء اليومية في مجموعة صور COCO الشائعة.

حواسب صغيرة، مسارات برمجية متعددة

بدلاً من تشغيل هذه النماذج على وحدة رسومات مكتبية كبيرة، توجّه الفريق إلى منصتين على الحافة تشبهان عقول الطائرات والروبوتات الصغيرة: Raspberry Pi 5 وNvidia Jetson Orin NX. على Raspberry Pi، يختبرون التنفيذ على المعالج المركزي فقط وشرائح عصبية مضافة مثل Edge TPU من جوجل وRaspberry Pi AI HAT+ المبني على Hailo-8. على لوحة Jetson، يعتمدون على وحدة الرسومات المدمجة. يُشغّل كل نموذج عبر محركات برمجية متعددة — من أطر بحثية مثل PyTorch إلى أدوات نشر محسّنة مثل TensorRT وNCNN وMNN وPaddle Lite وTensorFlow Lite — لرؤية كيف تغيّر الخيارات البرمجية السرعة، واستهلاك الطاقة، والدقة.

قياس السرعة والطاقة والدقة معاً

لمحاكاة الاستخدام الواقعي، لا يقيّد المؤلفون قياسهم بنواة الشبكة فقط. يغذّون تيار فيديو عالي الدقة كامل، بما في ذلك فك ترميز الإطارات، وتجهيزها للنموذج، وتشغيل الكشف، وترتيب النتائج. يعرفون "الزمن الحقيقي" بأنه معالجة لا تقل عن 25 إطاراً في الثانية، معدل الفيديو القياسي. بينما تبقى جودة الكشف الخام للنماذج مرتفعة عبر العديد من بيئات التشغيل، يتفاوت معدل الإطارات الكلي واستهلاك الطاقة تفاوتاً كبيراً. على Raspberry Pi، يؤدي تشغيل النماذج الكبيرة على المعالج المركزي وحده إلى تأخيرات متعددة الثواني لكل إطار وكفاءة طاقة ضعيفة للغاية. تغيّر الشرائح العصبية المخصصة الصورة: مسار Hailo-8 يمنح YOLOv8 كفاءة طاقة عالية ودقة قوية، بينما يعمل Edge TPU بسرعة لكنه يفرض دقة إدخال أقل وتقريب أعداد عددي عدواني، مما يخفض جودة الكشف إلى مستويات أقل من المقبولة عملياً.

Figure 2
Figure 2.

ضبط GPU يغيّر الفائز

يتيح Jetson Orin NX، بوحدة رسومات أقوى، نظرة أعمق على الصراع بين تصميم النموذج وبرمجيات النشر. هنا، تقلّص TensorRT — سلسلة أدوات تقوم بترجمة وضغط النماذج لأجهزة نفيديا — أزمنة الاستدلال بشكل كبير وتزيد عدد الإطارات في الثانية لكل واط لكلا الكاشفين. تحت الإعداد البحثي الافتراضي، يبدو YOLOv8 أسرع. بعد تطبيق تحسين TensorRT الكامل والحسابات منخفضة الدقة، يلحق RT-DETR ويتفوّق على YOLOv8 من حيث الإنتاجية الخام للنماذج الكبيرة. ومع ذلك، عندما يقوم المؤلفون بتطبيع النتائج بحسب كمية العمليات الحسابية المعلنة لكل نموذج، يظل YOLOv8 يستخدم وقتاً وطاقة أقل لكل وحدة عمل اسمية، بينما يثبت RT-DETR حساسيته أكثر لخطوات التحويل بين سلاسل الأدوات.

لماذا الأرقام الخام لا تروي القصة كاملة

لفك هذه النتائج، تفصل الورقة ثلاثة مكونات للأداء: كمية الحساب الأساسية التي يبدو أن كل نموذج يحتاجها على الورق، والطريقة التي تحرك بها لبناته البيانات فعلياً عبر الذاكرة، والعبء الإضافي الذي تضيفه برمجيات التشغيل. تعتمد المحولات مثل تلك في RT-DETR على طبقات الانتباه التي تربط مواقع صور متعددة ببعضها البعض، مما ينتج هياكل بيانات وسيطة كبيرة قد تثقل الذاكرة والجدولة حتى لو بدت أعداد العمليات الاسمية متواضعة. التصاميم التي تعتمد على التلافيف بكثافة مثل YOLOv8، بالمقابل، تسمح بسهولة أكبر بوحدات نواة مدمجة وإعادة استخدام محلية للبيانات على وحدات الرسومات المضمنة. كما يبيّن المؤلفون أن جزءاً من فقدان الدقة المنسوب إلى الحساب منخفض الدقة ينشأ فعلياً في وقت أبكر، أثناء التحويل من إطار التدريب الأصلي إلى محرك محسن للأجهزة.

ماذا يعني هذا لأجهزة العالم الحقيقي

في النهاية، لم تحقق أي من إعدادات النماذج الكبيرة على أي من الجهازين هدف 25 إطاراً في الثانية الصارم لأنبوب الفيديو الكامل. الخلاصة للمهندسين هي أن اختيار كاشف "جاهز للحافة" ليس سهلاً مثل قراءة أعداد المعاملات أو أرقام العمليات النظرية. النجاح الحقيقي يعتمد على how يتفاعل هيكل النموذج مع الشريحة المحددة، ومدى جودة برمجيات التشغيل في ترجمة وجدولة عملياته، وكم من الدقة يبقى بعد التصدير والتكميم. في الوقت الحاضر، سيتطلب تحقيق أداء حقيقي في الزمن الحقيقي على منصات صغيرة محدودة الطاقة ضبطاً واعياً للعتاد وفي كثير من الحالات استخدام نسخ أصغر من هذه النماذج بدلاً من الأكبر والأدق منها.

الاستشهاد: Suchý, I., Turčaník, M. Review of large YOLOv8 and RT-DETR energy efficiency on edge devices for real-time detection. Sci Rep 16, 10908 (2026). https://doi.org/10.1038/s41598-026-46453-6

الكلمات المفتاحية: الذكاء الاصطناعي على الحافة, كشف الأشياء, كفاءة الطاقة, وحدة معالجة رسومات مدمجة, تكميم النماذج