Clear Sky Science · ar

DVS-PedX: مجموعة بيانات للمشاة تعتمد على الأحداث، صناعية وحقيقية

· العودة إلى الفهرس

لماذا تهم العيون الأسرع على الطريق

عندما تقترب كسائق من ممر عبور، قد يقرر جزء من الثانية ما إذا كنت ستتوقف في الوقت المناسب. تعتمد أنظمة مساعدة السائق الحالية عادةً على كاميرات فيديو عادية تلتقط صورًا كاملة عدة مرات في الثانية. لكن نوعًا أحدث من «كاميرات الأحداث» يعمل بطريقة أشبه بالشبكية البشرية، إذ يستجيب فقط للتغيرات في السطوع عند كل بيكسل. تقدم هذه الورقة DVS‑PedX، وهي مجموعة بيانات كبيرة بُنيت لمساعدة الباحثين على تعليم هذه الكاميرات—والخوارزميات المستوحاة من الدماغ—على ملاحظة متى يوشك الناس على عبور الشارع، حتى في المطر أو الضباب أو في الليل.

Figure 1
Figure 1.

من الفيديو العادي إلى نوع جديد من الرؤية

تلتقط الكاميرات التقليدية لقطات كاملة على فترات ثابتة، سواء كان هناك شيء يتحرك أم لا. أما كاميرات الأحداث، فتبلغ بدلاً من ذلك عن وميض صغير من المعلومات كلما أصبح نقطة في المشهد أكثر سطوعًا أو أظلمت. يحمل كل وميض موقعه ووقته وما إذا كان السطوع ازداد أم تناقص، ويُقاس التوقيت بوحدات الميكروثانية. هذا يجعلها جيدة بطبيعتها في التقاط الحركة والحواف مع تجاهل الخلفيات الثابتة إلى حد كبير. لمهام مثل اكتشاف المشاة وتوقع نواياهم، قد تكون هذه الرؤية القائمة على «ما يتغير فقط» أكثر كفاءة وأسرع وأكثر متانة أمام الوهج أو الظلال أو المصابيح الأمامية من الفيديو التقليدي.

بناء مدينة افتراضية من ممرات المشاة

لمنح العلماء بيانات مُتحكَّمًا بها للعمل عليها، استخدم المؤلفون أولاً محاكٍ القيادة CARLA لإنشاء مئات المشاهد الشارعية الافتراضية. تقترب سيارة ذاتية القيادة من ممر عبور بينما قد يخطو مشاة رقميون على الطريق أو لا. تتغير ظروف الإضاءة (نهار، غروب، ليل) والطقس (صافي، مطر، ضباب) من تجربة لأخرى، كما تتنوع ملامح المشاة وتوقيت أي عبور. تراقبان حسّاسان افتراضيان، كاميرا ملونة عادية وكاميرا أحداث محاكاة، المشهد من منظور السائق. يسجل النظام فيديوً تقليديًا بسرعة 30 إطارًا في الثانية وبالتوازي يضغط تدفق الأحداث إلى «إطارات أحداث» كل 33 مللي ثانية ليطابق كل إطار فيديو. يتم تعليم كل إطار ببساطة على أنه «عابر» أو «غير عابر»، ما يجعل تدريب واختبار أنظمة الوعي بالمشاة أمراً مباشراً.

تحويل كاميرات اللوحة الحقيقية إلى تدفقات أحداث

المشاهد الافتراضية وحدها لا تكفي: الشوارع الحقيقية أكثر فوضوية. لالتقاط ذلك، بنى الفريق مكوّنًا ثانياً من مجموعة لقطات كاميرات لوحة شائعة تُدعى JAAD، والتي تتضمن مقاطع قصيرة لقيادة حضرية مع سلوكيات مشاة موشّحة بعناية. شغّلوا جميع المقاطع الـ 346 عبر أداة تحويل تحاكي استجابة كاميرا الأحداث لكل إطار. تقوم هذه الأداة بنمذجة تغيرات السطوع عند كل بيكسل وتستخلص حتى الإطارات الوسيطة لتقريب الحركة المستمرة. النتيجة هي «عرض أحداث اصطناعي» للطرق الحقيقية، مع حواف حركة حادة حيث تتحرك الناس والسيارات والكثير من الخلفية الثابتة تتلاشى. تحقق المؤلفون من هذه التدفقات المحولة مقارنةً ببيانات من كاميرات أحداث فعلية مستخدمة في التصنيع، مبينين أن الأحداث الاصطناعية تتطابق مع الحقيقية في النشاط العام والبنية والتوقيت.

محتويات مجموعة البيانات وأداؤها

يجمع DVS‑PedX بين 198 تسلسلاً محاكياً من CARLA و346 مقطعًا حقيقيًا محولًا من JAAD. يقدم كل تسلسل أزواجًا مطابقة من الصور الملونة وإطارات الأحداث، وملفات أحداث خام لتحليلات التوقيت الدقيقة، وتسميات على مستوى الإطار للعبور. نفسها العبور نادرة نسبيًا، مما يعكس الحركة الحقيقية، وهو ما يجعل مشكلة التعلم واقعية وتحديًا. لإظهار أن مجموعة البيانات مفيدة لكن ليست تافهة، درّب المؤلفون شبكات عصبية نابضة—خوارزميات تعالج المعلومات في نبضات منفصلة على غرار الخلايا العصبية البيولوجية. أدت هذه النماذج أداءً قويًا على التسلسلات الاصطناعية لكنها تراجعت في الدقة عند اختبارها مباشرةً على البيانات الحقيقية المحولة، ثم تحسنت مجددًا عندما أُدخلت كمية صغيرة من البيانات الحقيقية في التدريب. تؤكد هذه الفجوة بين المحاكاة والواقع أن مجموعة البيانات قادرة على دفع البحث في تكييف النطاق والدمج متعدد الوسائط.

Figure 2
Figure 2.

شوارع أكثر أمانًا عبر استشعار أذكى

بعبارات بسيطة، DVS‑PedX هي مكتبة مُجمَّعة بعناية للحظات قد يعبر فيها الناس الشارع أو لا، تُرى من خلال «عيون» عادية ومبنية على الأحداث معًا. من خلال تغطية محاكيات نظيفة ولقطات لوحة حقيقية متقلبة، وتضمين تسميات واضحة وأدوات مفتوحة المصدر، تمنح الباحثين منصة مشتركة لاستكشاف كيفية اكتشاف المشاة وتوقع نواياهم في ظروف صعبة. الأمل هو أنه من خلال التعلم من هذه المجموعة، ستستجيب أنظمة مساعدة السائق والروبوتات المستقبلية أسرع وبمصداقية أكبر—مما يقربنا خطوة نحو آلات أكثر أمانًا ويقظة على طرقنا.

الاستشهاد: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

الكلمات المفتاحية: كاميرات الأحداث, سلامة المشاة, القيادة الذاتية, الرؤية النيورومورفيّة, مجموعات بيانات المرور