Clear Sky Science · it

DVS-PedX: Dataset di pedoni basato su eventi sintetici e reali

2026-03-06 · Torna all'indice

Perché occhi più veloci sulla strada contano

Quando ti avvicini a un attraversamento pedonale come guidatore, una frazione di secondo può decidere se ti fermi in tempo. I sistemi di assistenza alla guida odierni si basano di solito su fotocamere video tradizionali che catturano immagini complete molte volte al secondo. Ma un tipo più recente di “telecamera a eventi” funziona più come una retina umana, reagendo solo ai cambiamenti di luminosità di ciascun pixel. Questo articolo presenta DVS‑PedX, un grande dataset creato per aiutare i ricercatori a insegnare a queste telecamere — e agli algoritmi ispirati al cervello — a notare quando le persone stanno per attraversare la strada, anche sotto pioggia, nebbia o di notte.

Dal video tradizionale a un nuovo tipo di visione

Le fotocamere tradizionali scattano istantanee complete a intervalli fissi, sia che ci sia movimento o meno. Le telecamere a eventi, invece, segnalano piccoli lampi di informazione ogni volta che un punto della scena diventa più chiaro o più scuro. Ogni lampo riporta la sua posizione, il tempo e se la luminosità è aumentata o diminuita, con la tempistica misurata in microsecondi. Questo le rende naturalmente efficaci nel rilevare il movimento e i contorni, ignorando in gran parte gli sfondi statici. Per compiti come individuare i pedoni e anticipare le loro intenzioni, questa visione «solo ciò che cambia» può essere più efficiente, più veloce e più robusta rispetto al video convenzionale in presenza di abbagliamento, ombre o fari.

Costruire una città virtuale di attraversamenti

Per fornire ai ricercatori dati controllati con cui lavorare, gli autori hanno prima utilizzato il simulatore di guida CARLA per creare centinaia di scene stradali virtuali. Un’auto a guida autonoma si avvicina a un attraversamento mentre un pedone digitale può decidere o meno di scendere sulla carreggiata. Illuminazione (giorno, crepuscolo, notte) e condizioni meteorologiche (sereno, pioggia, nebbia) vengono variate di volta in volta, così come l’aspetto dei pedoni e il momento esatto dell’eventuale attraversamento. Due sensori virtuali, una telecamera a colori normale e una telecamera a eventi simulata, guardano dal punto di vista del conducente. Il sistema registra il video standard a 30 fotogrammi al secondo e, in parallelo, compatta il flusso di eventi in “frame di eventi” ogni 33 millisecondi in modo che corrispondano a ciascun fotogramma video. Ogni fotogramma è etichettato semplicemente come «in attraversamento» o «non in attraversamento», rendendo semplice l’addestramento e il test di sistemi consapevoli dei pedoni.

Trasformare dashcam reali in flussi di eventi

Le scene virtuali da sole non sono sufficienti: le strade reali sono più disordinate. Per catturare questo aspetto, il team ha costruito un secondo componente a partire da una raccolta di dashcam ampiamente usata chiamata JAAD, che contiene clip brevi di guida urbana con comportamenti dei pedoni annotati con cura. Hanno elaborato tutte le 346 clip con uno strumento di conversione che simula come risponderebbe una telecamera a eventi a ciascun fotogramma. Questo strumento modella i cambiamenti di luminosità in ogni pixel e persino interpola tra i fotogrammi per approssimare il movimento continuo. Il risultato è una «vista di eventi sintetici» delle strade reali, con contorni di movimento nitidi dove si muovono persone e veicoli e gran parte dello sfondo statico che svanisce. Gli autori hanno confrontato questi flussi convertiti con i dati di telecamere a eventi fisiche usate in laboratorio, mostrando che gli eventi sintetici corrispondono a quelli reali in termini di attività complessiva, struttura e tempistica.

Cos contiene il dataset e come si comporta

DVS‑PedX combina 198 sequenze simulate da CARLA e 346 clip convertite dal mondo reale prese da JAAD. Ogni sequenza offre coppie abbinate di immagini a colori e frame di eventi, file di eventi grezzi per analisi temporali dettagliate e etichette a livello di fotogramma sull’attraversamento. Gli attraversamenti stessi sono relativamente rari, rispecchiando il traffico reale, il che rende il problema di apprendimento realistico e impegnativo. Per dimostrare che il dataset è utile ma non banale, gli autori hanno addestrato reti neurali a spike — algoritmi che elaborano informazioni in impulsi discreti, simili ai neuroni biologici. Questi modelli hanno ottenuto buone prestazioni sulle sequenze sintetiche ma hanno perso accuratezza quando testati direttamente sui dati reali convertiti, per poi migliorare di nuovo quando una piccola quantità di dati reali è stata mescolata al training. Questo «gap simulazione‑realtà» conferma che il dataset può stimolare ricerche in adattamento di dominio e fusione multimodale.

Strade più sicure grazie a sensori più intelligenti

In termini semplici, DVS‑PedX è una libreria accuratamente assemblata di momenti in cui le persone potrebbero o non potrebbero attraversare la strada, osservata sia con occhi ordinari sia con occhi basati su eventi. Coprendo simulazioni pulite e filmati dashcam reali più crudi, e includendo etichette chiare e strumenti open‑source, offre ai ricercatori una piattaforma comune per esplorare come rilevare i pedoni e anticipare le loro intenzioni in condizioni difficili. La speranza è che, imparando da questo dataset, i futuri sistemi di assistenza alla guida e i robot reagiranno più rapidamente e in modo più affidabile — avvicinandoci a macchine sulle nostre strade più sicure e attente.

Citazione: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

Parole chiave: telecamere a eventi, sicurezza dei pedoni, guida autonoma, visione neuromorfica, dataset sul traffico