Clear Sky Science · pt

DVS-PedX: Conjunto de Dados de Pedestres Baseado em Eventos, Sintético e Real

· Voltar ao índice

Por que olhos mais rápidos na estrada importam

Ao se aproximar de uma faixa de pedestres como motorista, uma fração de segundo pode decidir se você para a tempo. Os sistemas atuais de assistência ao motorista geralmente dependem de câmeras de vídeo comuns que capturam imagens inteiras várias vezes por segundo. Mas um tipo mais recente de “câmera de eventos” funciona de modo mais parecido com a retina humana, reagindo apenas às mudanças de brilho em cada pixel. Este artigo apresenta o DVS‑PedX, um grande conjunto de dados criado para ajudar pesquisadores a ensinar essas câmeras — e algoritmos inspirados no cérebro — a perceber quando pessoas estão prestes a atravessar a rua, mesmo na chuva, neblina ou à noite.

Figure 1
Figure 1.

Do vídeo convencional a um novo tipo de visão

Câmeras tradicionais fazem capturas completas em intervalos fixos, quer haja movimento ou não. Câmeras de eventos, em contraste, registram pequenos flashes de informação sempre que um ponto na cena fica mais claro ou mais escuro. Cada flash traz sua localização, tempo e se o brilho aumentou ou diminuiu, com temporização medida em microssegundos. Isso as torna naturalmente boas em detectar movimento e contornos enquanto ignoram fundos largamente estáticos. Para tarefas como identificar pedestres e antecipar sua intenção, essa visão de “apenas o que muda” pode ser mais eficiente, mais rápida e mais robusta contra ofuscamento, sombras ou faróis do que o vídeo convencional.

Construindo uma cidade virtual de faixas de pedestres

Para fornecer aos cientistas dados controlados para trabalhar, os autores primeiro usaram o simulador de direção CARLA para criar centenas de cenas urbanas virtuais. Um carro autônomo se aproxima de uma faixa enquanto um pedestre digital pode ou não colocar o pé na rua. Iluminação (dia, crepúsculo, noite) e clima (limpo, chuva, neblina) são embaralhados a cada execução, assim como as aparências dos pedestres e o momento exato de qualquer travessia. Dois sensores virtuais, uma câmera colorida comum e uma câmera de eventos simulada, observam do ponto de vista do motorista. O sistema grava vídeo padrão a 30 quadros por segundo e, em paralelo, compacta o fluxo de eventos em “quadros de eventos” a cada 33 milissegundos para alinhá‑lo com cada quadro de vídeo. Cada quadro é rotulado simplesmente como “atravessando” ou “não atravessando”, tornando direto treinar e testar sistemas que detectam pedestres.

Transformando dashcams reais em fluxos de eventos

Apenas cenas virtuais não bastam: ruas reais são mais desordenadas. Para capturar isso, a equipe construiu um segundo componente a partir de uma coleção de dashcams amplamente usada chamada JAAD, que contém clipes curtos de direção urbana com comportamentos de pedestres cuidadosamente anotados. Eles processaram todos os 346 clipes por meio de uma ferramenta de conversão que simula como uma câmera de eventos responderia a cada quadro. Essa ferramenta modela mudanças de brilho em cada pixel e até interpola entre quadros para aproximar o movimento contínuo. O resultado é uma “visão de eventos sintética” de estradas reais, com contornos de movimento nítidos onde pessoas e carros se movem e grande parte do fundo estático desaparecendo. Os autores verificaram esses fluxos convertidos contra dados de câmeras de eventos físicas usadas em produção, mostrando que os eventos sintéticos coincidem com os reais em atividade geral, estrutura e temporização.

O que o conjunto de dados contém e como ele se sai

O DVS‑PedX combina 198 sequências simuladas do CARLA e 346 clipes do mundo real convertidos do JAAD. Cada sequência oferece pares correspondentes de imagens coloridas e quadros de eventos, arquivos brutos de eventos para análise de temporização fina e rótulos por quadro indicando travessia. As travessias em si são relativamente raras, espelhando o tráfego real, o que torna o problema de aprendizado realista e desafiador. Para demonstrar que o conjunto é útil mas não trivial, os autores treinaram redes neurais pulsantes — algoritmos que processam informação em pulsos discretos, semelhantes a neurônios biológicos. Esses modelos tiveram desempenho forte nas sequências sintéticas, mas caíram em precisão quando testados diretamente nos dados reais convertidos, voltando a melhorar quando um pouco de dado real foi misturado ao treinamento. Essa “lacuna simulação‑para‑realidade” confirma que o conjunto pode impulsionar pesquisas em adaptação de domínio e fusão multimodal.

Figure 2
Figure 2.

Ruas mais seguras por meio de sensores mais inteligentes

Em termos simples, o DVS‑PedX é uma biblioteca cuidadosamente montada de momentos em que pessoas podem ou não atravessar a rua, vista tanto por “olhos” ordinários quanto por “olhos” baseados em eventos. Ao abranger simulações limpas e imagens reais de dashcams, e ao incluir rótulos claros e ferramentas de código aberto, ele oferece aos pesquisadores um campo de testes comum para explorar como detectar pedestres e antecipar suas intenções em condições difíceis. A esperança é que, ao aprender com esse conjunto de dados, futuros sistemas de assistência ao motorista e robóticos reajam mais rápida e confiavelmente — aproximando‑nos de máquinas mais seguras e mais atentas nas nossas vias.

Citação: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

Palavras-chave: câmeras de eventos, segurança de pedestres, direção autônoma, visão neuromórfica, conjuntos de dados de tráfego