Clear Sky Science · es

Conjunto de datos para el análisis de vídeo de tráfico desde múltiples perspectivas

· Volver al índice

Por qué importa tener muchos ojos en la calle

Cualquiera que haya intentado cruzar una calle concurrida sabe que coches, bicicletas y peatones se mueven de formas que pueden ser difíciles de predecir. Las ciudades recurren a cámaras e inteligencia artificial para mantener estos espacios seguros, pero la mayoría de los sistemas aún observan la calzada desde un solo ángulo. Este artículo presenta un nuevo conjunto de vídeo público que vigila el mismo paso de peatones desde tres puntos de vista distintos a la vez, ofreciendo a los investigadores el material bruto y enriquecido que necesitan para construir sistemas de tráfico más seguros e inteligentes.

Figure 1
Figura 1.

Un paso de peatones, tres maneras de ver

El conjunto de datos se centra en una escena cotidiana: un paso de peatones del campus de la Universidad de Murcia en España. En lugar de depender de una sola cámara, los autores grabaron cada evento con tres dispositivos sincronizados: una cámara montada en un coche en movimiento que se aproxima al paso, una cámara fija en un poste junto a la carretera en posición elevada y una cámara en un pequeño dron sobrevolando la zona. Juntas, estas perspectivas capturan a las mismas personas y vehículos a nivel del suelo, desde un costado y desde el aire, reflejando de forma cercana cómo distintos observadores podrían ver el mismo momento en la realidad.

Capturar tanto paseos rutinarios como percances inusuales

Para que los datos sean útiles tanto para la supervisión diaria como para situaciones de emergencia, el equipo escenificó dos tipos de eventos. En algunas grabaciones, los peatones simplemente cruzan mientras el coche se detiene y espera, reflejando el comportamiento normal del tráfico. En otras, un actor simula una caída en el paso de peatones, siguiendo patrones de movimiento diseñados para asemejarse a un accidente real. El coche siempre sigue la misma trayectoria y los peatones repiten los mismos movimientos básicos, de modo que los investigadores pueden comparar cómo se ve cada escenario desde las distintas cámaras y estudiar cómo los sucesos inusuales se distinguen de los rutinarios.

Del metraje bruto a un combustible poderoso para la investigación

Una característica clave del conjunto de datos es que los archivos de vídeo se mantienen sin editar. El único procesamiento consiste en la adición de marcas de tiempo precisas, además de una señal visual sencilla: al inicio de cada cruce, un peatón levanta brevemente la mano. Esto facilita alinear fotogramas de las tres cámaras para que se pueda estudiar el mismo instante desde cada ángulo. Los 18 archivos de vídeo cubren tres configuraciones de cámara y dos condiciones de cruce (con y sin caída) en tres distribuciones espaciales diferentes del coche, la unidad lateral y el dron. Los investigadores también reciben imágenes adicionales que describen las propiedades ópticas exactas de la lente de la cámara lateral, ayudándoles a corregir la distorsión cuando sea necesario.

Figure 2
Figura 2.

Probar cuánto entienden las máquinas de la escena

Para comprobar que el conjunto de datos es realmente útil, los autores realizaron pruebas estándar de detección de objetos, comparando sus grabaciones con colecciones de vídeo de tráfico bien conocidas como KITTI, VisDrone y UA-DETRAC. Utilizaron modelos modernos de detección para localizar personas en los vídeos y midieron con qué precisión las formas predichas coincidían con los contornos verificados por humanos. En promedio, el nuevo conjunto de datos produjo puntuaciones más altas tanto en la precisión de las detecciones como en la alineación de las formas delimitadoras. Al examinar con qué frecuencia cada persona era visible en una, dos o las tres vistas, el equipo también mostró que la cobertura superpuesta de las distintas cámaras reduce considerablemente los puntos ciegos cuando las personas están ocultas tras coches o mobiliario urbano.

Qué implica esto para las calles del futuro

Para los no especialistas, el mensaje central es que este conjunto de datos ofrece una imagen mucho más completa de lo que ocurre en un paso de peatones que las colecciones anteriores. Al combinar vistas desde el coche, el lateral y el aire de forma sincronizada, proporciona a ingenieros y científicos un banco de pruebas realista para construir sistemas de tráfico que puedan seguir a las personas con mayor fiabilidad, detectar accidentes con rapidez y lidiar con complicaciones del mundo real como obstáculos y cambios de perspectiva. A largo plazo, recursos como este pueden ayudar a impulsar pasos más seguros, semáforos más sensibles y servicios urbanos más inteligentes que protejan mejor a todos los usuarios de la vía.

Cita: Sanchez-Iborra, R., Kouvakis, V., Trevlakis, S.E. et al. Dataset for multi-perspective traffic video analysis. Sci Data 13, 543 (2026). https://doi.org/10.1038/s41597-026-06907-y

Palabras clave: vigilancia del tráfico, vídeo multivista, seguridad de peatones, ciudades inteligentes, conjunto de datos de visión por ordenador