Clear Sky Science · fr

DVS-PedX : Jeu de données piétons basé sur des événements, synthétique et réel

2026-03-06 · Retour à l’index

Pourquoi des yeux plus rapides sur la route comptent

Lorsque vous approchez d’un passage pour piétons en tant que conducteur, une fraction de seconde peut décider si vous vous arrêtez à temps. Les systèmes d’aide à la conduite actuels reposent généralement sur des caméras vidéo classiques qui capturent des images complètes plusieurs fois par seconde. Mais un type plus récent, la « caméra à événements », fonctionne davantage comme une rétine humaine, ne réagissant qu’aux variations de luminosité à chaque pixel. Cet article présente DVS‑PedX, un grand jeu de données conçu pour aider les chercheurs à apprendre à ces caméras — et aux algorithmes inspirés du cerveau — à détecter quand des personnes sont sur le point de traverser la rue, même sous la pluie, dans le brouillard ou la nuit.

De la vidéo classique à un nouveau type de vision

Les caméras traditionnelles prennent des instantanés complets à intervalles fixes, qu’il y ait du mouvement ou non. Les caméras à événements, en revanche, rapportent de petites impulsions d’information chaque fois qu’un point de la scène devient plus lumineux ou plus sombre. Chaque impulsion indique sa position, son instant et si la luminosité a augmenté ou diminué, le temps étant mesuré en microsecondes. Cela les rend naturellement efficaces pour capter le mouvement et les contours tout en ignorant les arrière‑plans essentiellement statiques. Pour des tâches comme repérer des piétons et anticiper leurs intentions, cette vision « seulement ce qui change » peut être plus efficiente, plus rapide et plus robuste face à l’éblouissement, aux ombres ou aux phares que la vidéo conventionnelle.

Construire une ville virtuelle de passages piétons

Pour fournir aux scientifiques des données contrôlées, les auteurs ont d’abord utilisé le simulateur de conduite CARLA pour créer des centaines de scènes de rue virtuelles. Une voiture autonome approche d’un passage pour piétons tandis qu’un piéton numérique peut ou non mettre le pied sur la chaussée. L’éclairage (jour, crépuscule, nuit) et la météo (clair, pluie, brouillard) sont mélangés d’une exécution à l’autre, tout comme l’apparence des piétons et le moment précis d’une traversée éventuelle. Deux capteurs virtuels, une caméra couleur classique et une caméra à événements simulée, regardent depuis le point de vue du conducteur. Le système enregistre la vidéo standard à 30 images par seconde et, en parallèle, compresse le flux d’événements en « trames d’événements » toutes les 33 millisecondes afin qu’elles s’alignent sur chaque image vidéo. Chaque image est étiquetée simplement comme « crossing » (traversée) ou « not crossing » (pas de traversée), ce qui rend l’apprentissage et le test des systèmes sensibles aux piétons simples et directs.

Transformer de vraies dashcams en flux d’événements

Les scènes virtuelles seules ne suffisent pas : les rues réelles sont plus désordonnées. Pour capter cela, l’équipe a construit une seconde composante à partir d’une collection de dashcams largement utilisée appelée JAAD, qui contient de courtes séquences de conduite urbaine avec des comportements piétons soigneusement annotés. Ils ont exécuté les 346 clips via un outil de conversion qui simule la réponse d’une caméra à événements à chaque image. Cet outil modélise les variations de luminosité à chaque pixel et interpole même entre les images pour approcher le mouvement continu. Le résultat est une « vue d’événements synthétique » des routes réelles, avec des contours de mouvement nets là où les personnes et les voitures se déplacent et une grande partie de l’arrière‑plan statique qui s’efface. Les auteurs ont comparé ces flux convertis aux données issues de caméras à événements physiques utilisées en laboratoire, montrant que les événements synthétiques correspondent aux événements réels en termes d’activité globale, de structure et de timing.

Ce que contient le jeu de données et ses performances

DVS‑PedX combine 198 séquences simulées provenant de CARLA et 346 clips du monde réel convertis depuis JAAD. Chaque séquence propose des paires appariées d’images couleur et de trames d’événements, des fichiers d’événements bruts pour une analyse temporelle fine, et des étiquettes de traversée au niveau des images. Les traversées elles‑mêmes sont relativement rares, reflétant le trafic réel, ce qui rend le problème d’apprentissage réaliste et difficile. Pour montrer que le jeu de données est utile mais pas trivial, les auteurs ont entraîné des réseaux de neurones à impulsions — des algorithmes qui traitent l’information sous forme d’impulsions discrètes, similaires aux neurones biologiques. Ces modèles ont obtenu de bonnes performances sur les séquences synthétiques mais ont vu leur précision chuter lorsqu’ils ont été testés directement sur les données réelles converties, puis s’améliorer à nouveau lorsque quelques données réelles ont été ajoutées à l’entraînement. Cet écart « simulation‑vers‑réalité » confirme que le jeu de données peut stimuler la recherche en adaptation de domaine et en fusion multimodale.

Des rues plus sûres grâce à une détection plus intelligente

En termes clairs, DVS‑PedX est une bibliothèque soigneusement assemblée de moments où des personnes peuvent ou non traverser la rue, observée à la fois par des « yeux » ordinaires et par des « yeux » basés sur les événements. En couvrant à la fois des simulations propres et des séquences réelles de dashcams rugueuses, et en incluant des annotations claires et des outils open source, il fournit aux chercheurs un banc d’essai commun pour explorer comment détecter les piétons et anticiper leurs intentions dans des conditions difficiles. L’espoir est qu’en apprenant à partir de ce jeu de données, les futurs systèmes d’aide à la conduite et les systèmes robotiques réagiront plus vite et plus fiablement — nous rapprochant d’un pas de rues plus sûres et de machines plus attentives sur nos routes.

Citation: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

Mots-clés: caméras à événements, sécurité des piétons, conduite autonome, vision neuromorphique, jeux de données routiers