Clear Sky Science · pl

DVS-PedX: Syntetyczny i rzeczywisty zbiór danych o pieszych dla kamer zdarzeniowych

2026-03-06 · Powrót do spisu

Dlaczego szybsze „oczy” na drodze mają znaczenie

Kiedy jako kierowca zbliżasz się do przejścia dla pieszych, ułamek sekundy może zdecydować, czy zdążysz się zatrzymać. Systemy wspomagania kierowcy obecnie zwykle opierają się na zwykłych kamerach wideo, które rejestrują pełne obrazy wiele razy na sekundę. Nowy typ „kamery zdarzeniowej” działa jednak bardziej jak siatkówka człowieka, reagując jedynie na zmiany jasności w poszczególnych pikselach. Niniejszy artykuł przedstawia DVS‑PedX, duży zbiór danych stworzony, by pomóc badaczom nauczyć takie kamery — i inspirowane mózgiem algorytmy — dostrzegania, kiedy ludzie zamierzają wejść na jezdnię, nawet podczas deszczu, mgły czy w nocy.

Od zwykłego wideo do nowego sposobu widzenia

Tradycyjne kamery wykonują kompletne migawki w stałych odstępach czasu, niezależnie od tego, czy coś się porusza. Kamery zdarzeniowe natomiast zgłaszają krótkie błyski informacji za każdym razem, gdy punkt sceny staje się jaśniejszy lub ciemniejszy. Każdy taki sygnał zawiera pozycję, czas oraz informację, czy jasność wzrosła czy spadła, a czas mierzony jest w mikrosekundach. Dzięki temu kamery te naturalnie wychwytują ruch i krawędzie, ignorując w dużej mierze statyczne tło. Do zadań takich jak wykrywanie pieszych i przewidywanie ich zamiarów podejście „tylko to, co się zmienia” może być bardziej efektywne, szybsze i bardziej odporne na odblaski, cienie czy reflektory niż konwencjonalne wideo.

Budowanie wirtualnego miasta z przejściami

Aby zapewnić naukowcom kontrolowane dane, autorzy najpierw użyli symulatora jazdy CARLA do stworzenia setek wirtualnych scen ulicznych. Samochód autonomiczny zbliża się do przejścia, a cyfrowy pieszy może wejść na jezdnię lub nie. Warunki oświetleniowe (dzień, zmierzch, noc) i pogodowe (słonecznie, deszcz, mgła) są losowane przy każdym przebiegu, podobnie jak wygląd pieszych i dokładne momenty przejścia. Dwa wirtualne sensory — zwykła kolorowa kamera i symulowana kamera zdarzeniowa — obserwują scenę z punktu widzenia kierowcy. System rejestruje standardowe wideo z prędkością 30 klatek na sekundę i równolegle kompresuje strumień zdarzeń do „klatek zdarzeniowych” co 33 milisekundy, żeby zgrać je z każdą klatką wideo. Każda klatka jest oznaczona po prostu jako „przejście” lub „brak przejścia”, co ułatwia trenowanie i testowanie systemów wykrywających pieszych.

Przekształcanie rzeczywistych nagrań z kamerek samochodowych w strumienie zdarzeń

Same sceny wirtualne to za mało: prawdziwe ulice są bardziej niejednolite. Aby to uchwycić, zespół zbudował drugi komponent oparty na powszechnie używanym zbiorze nagrań z kamerek pokładowych o nazwie JAAD, który zawiera krótkie klipy z jazdy po mieście z dokładnie opisanymi zachowaniami pieszych. Wszystkie 346 klipów przerobili za pomocą narzędzia konwertującego, które symuluje reakcję kamery zdarzeniowej na każdą klatkę. Narzędzie modeluje zmiany jasności w każdym pikselu, a nawet interpoluje między klatkami, by przybliżyć ciągły ruch. Efektem jest „syntetyczny widok zdarzeniowy” rzeczywistych dróg, z wyraźnymi krawędziami ruchu tam, gdzie poruszają się ludzie i samochody, a większość statycznego tła zanika. Autorzy porównali te skonwertowane strumienie z danymi z fizycznych kamer zdarzeniowych używanych w produkcji, wykazując, że syntetyczne zdarzenia zgadzają się z rzeczywistymi pod względem ogólnej aktywności, struktury i czasowania.

Co zawiera zbiór danych i jak działa

DVS‑PedX łączy 198 sekwencji symulowanych z CARLA i 346 skonwertowanych klipów rzeczywistych z JAAD. Każda sekwencja zawiera dopasowane pary obrazów kolorowych i klatek zdarzeniowych, surowe pliki zdarzeń do analizy precyzyjnego timestampona oraz etykiety na poziomie klatki wskazujące przejście. Same przejścia są stosunkowo rzadkie, odzwierciedlając rzeczywisty ruch drogowy, co czyni problem uczenia realistycznym i wymagającym. Aby pokazać, że zbiór jest użyteczny, ale nie trywialny, autorzy trenowali sieci neuronowe impulsowe — algorytmy przetwarzające informacje w dyskretnych impulsach, podobnie jak neurony biologiczne. Modele te osiągały dobre wyniki na sekwencjach syntetycznych, ale dokładność spadała przy bezpośrednim testowaniu na skonwertowanych danych rzeczywistych, a następnie poprawiała się, gdy do treningu dołączono nieco prawdziwych danych. Ta „przepaść symulacja‑do‑rzeczywistości” potwierdza, że zbiór może napędzać badania nad adaptacją domeny i fuzją multimodalną.

Bezpieczniejsze ulice dzięki inteligentniejszym sensorom

Mówiąc prosto, DVS‑PedX to starannie złożona biblioteka momentów, w których ludzie mogą, albo nie mogą, przejść przez ulicę, obserwowanych zarówno zwykłymi, jak i zdarzeniowymi „oczami”. Łącząc czyste symulacje z surowymi nagraniami z kamerek samochodowych oraz dostarczając czytelne etykiety i narzędzia open source, daje badaczom wspólny poligon testowy do badania wykrywania pieszych i przewidywania ich zamiarów w trudnych warunkach. Nadzieja jest taka, że dzięki nauce na tym zbiorze przyszłe systemy wspomagania kierowcy i roboty będą reagować szybciej i bardziej niezawodnie — przybliżając nas do bezpieczniejszych, bardziej uważnych maszyn na naszych drogach.

Cytowanie: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

Słowa kluczowe: kamery zdarzeniowe, bezpieczeństwo pieszych, autonomiczna jazda, neuromorficzna wizja, zbiory danych ruchu