Clear Sky Science · es

DVS-PedX: Conjunto de datos de peatones mediante eventos, sintético y real

2026-03-06 · Volver al índice

Por qué importan unos ojos más rápidos en la carretera

Cuando te aproximas a un paso de peatones como conductor, una fracción de segundo puede decidir si frenas a tiempo. Los sistemas actuales de ayuda al conductor suelen basarse en cámaras de vídeo convencionales que capturan imágenes completas muchas veces por segundo. Pero un tipo más reciente de “cámara de eventos” funciona más como la retina humana, reaccionando solo a los cambios de brillo en cada píxel. Este artículo presenta DVS‑PedX, un gran conjunto de datos diseñado para ayudar a los investigadores a enseñar a esas cámaras —y a algoritmos inspirados en el cerebro— a detectar cuándo las personas están a punto de cruzar la calle, incluso bajo lluvia, niebla o de noche.

De vídeo convencional a un nuevo tipo de visión

Las cámaras tradicionales toman instantáneas completas a intervalos fijos, ya haya movimiento o no. Las cámaras de eventos, en cambio, reportan pequeñas ráfagas de información cada vez que un punto de la escena se vuelve más brillante o más oscuro. Cada ráfaga incluye su ubicación, tiempo y si el brillo aumentó o disminuyó, con la sincronización medida en microsegundos. Esto las hace especialmente buenas para captar movimiento y bordes mientras ignoran fondos mayormente estáticos. Para tareas como detectar peatones y anticipar su intención, esta visión de “solo lo que cambia” puede ser más eficiente, más rápida y más robusta frente al deslumbramiento, las sombras o los faros que el vídeo convencional.

Construyendo una ciudad virtual de pasos de peatones

Para proporcionar a los científicos datos controlados con los que trabajar, los autores usaron primero el simulador de conducción CARLA para crear cientos de escenas urbanas virtuales. Un coche autónomo se aproxima a un paso de peatones mientras un peatón digital puede o no decidir poner un pie en la calzada. La iluminación (día, crepúsculo, noche) y el clima (despejado, lluvia, niebla) se combinan aleatoriamente en cada ejecución, al igual que la apariencia de los peatones y el momento exacto de cualquier cruce. Dos sensores virtuales, una cámara de color convencional y una cámara de eventos simulada, apuntan desde el punto de vista del conductor. El sistema graba vídeo estándar a 30 fotogramas por segundo y, en paralelo, compacta el flujo de eventos en “fotogramas de eventos” cada 33 milisegundos para alinearlos con cada fotograma de vídeo. Cada fotograma se etiqueta simplemente como “cruzando” o “no cruzando”, lo que facilita el entrenamiento y la evaluación de sistemas conscientes de los peatones.

Convirtiendo dashcams reales en flujos de eventos

Las escenas virtuales por sí solas no bastan: las calles reales son más desordenadas. Para capturar esto, el equipo construyó un segundo componente a partir de una colección de dashcams ampliamente usada llamada JAAD, que presenta clips cortos de conducción urbana con comportamientos de peatones cuidadosamente anotados. Ejecutaron los 346 clips a través de una herramienta de conversión que simula cómo respondería una cámara de eventos a cada fotograma. Esta herramienta modela los cambios de brillo en cada píxel e incluso interpola entre fotogramas para aproximar el movimiento continuo. El resultado es una “vistazo de eventos sintéticos” de carreteras reales, con bordes de movimiento nítidos donde se desplazan personas y coches y gran parte del fondo estático desaparece. Los autores compararon estos flujos convertidos con datos de cámaras de eventos físicas usadas en producción, mostrando que los eventos sintéticos coinciden con los reales en actividad global, estructura y sincronización.

Qué contiene el conjunto de datos y cómo rinde

DVS‑PedX combina 198 secuencias simuladas de CARLA y 346 clips reales convertidos de JAAD. Cada secuencia ofrece pares emparejados de imágenes en color y fotogramas de eventos, archivos de eventos en bruto para análisis de sincronización fino y etiquetas por fotograma sobre si hay cruce. Los cruces en sí son relativamente raros, reflejando el tráfico real, lo que hace que el problema de aprendizaje sea realista y desafiante. Para demostrar que el conjunto es útil pero no trivial, los autores entrenaron redes neuronales de pulsos (spiking neural networks): algoritmos que procesan información en pulsos discretos, similares a las neuronas biológicas. Estos modelos rindieron bien en las secuencias sintéticas, pero la precisión cayó al evaluarlos directamente en los datos reales convertidos, y volvió a mejorar cuando se incorporó algo de datos reales al entrenamiento. Esta “brecha simulación‑a‑realidad” confirma que el conjunto puede impulsar investigación en adaptación de dominio y fusión multimodal.

Calles más seguras mediante sensores más inteligentes

En términos sencillos, DVS‑PedX es una biblioteca cuidadosamente ensamblada de momentos en los que las personas pueden o no cruzar la calle, vista tanto a través de ojos ordinarios como de ojos basados en eventos. Al abarcar simulaciones limpias y metraje real y áspero de dashcams, e incluir etiquetas claras y herramientas de código abierto, ofrece a los investigadores un banco de pruebas común para explorar cómo detectar peatones y anticipar su intención en condiciones difíciles. La esperanza es que, al aprender de este conjunto de datos, los futuros sistemas de ayuda al conductor y los robots reaccionen más rápido y con mayor fiabilidad, acercándonos un paso más a máquinas más seguras y más atentas en nuestras carreteras.

Cita: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

Palabras clave: cámaras de eventos, seguridad de peatones, conducción autónoma, visión neuromórfica, conjuntos de datos de tráfico