Clear Sky Science · de

DVS-PedX: Synthetisches-und-reales ereignisbasiertes Fußgänger-Datenset

· Zurück zur Übersicht

Warum schnellere Augen auf der Straße wichtig sind

Wenn Sie als Fahrer auf einen Zebrastreifen zurollen, kann ein Bruchteil einer Sekunde darüber entscheiden, ob Sie rechtzeitig anhalten. Die heutigen Fahrerassistenzsysteme beruhen meist auf herkömmlichen Videokameras, die viele vollständige Bilder pro Sekunde aufnehmen. Eine neuere Kameragattung — die sogenannte Ereigniskamera — arbeitet eher wie die menschliche Netzhaut und reagiert nur auf Helligkeitsänderungen an einzelnen Pixeln. Dieses Paper stellt DVS‑PedX vor, ein großes Datenset, das Forschern helfen soll, solchen Kameras — und gehirninspirierten Algorithmen — beizubringen, zu erkennen, wenn Menschen im Begriff sind, die Straße zu überqueren, auch bei Regen, Nebel oder nachts.

Figure 1
Figure 1.

Von regulärem Video zu einer neuen Sehweise

Traditionelle Kameras erzeugen zu festen Zeitpunkten vollständige Aufnahmen, unabhängig davon, ob sich etwas bewegt. Ereigniskameras hingegen melden winzige Informationsblitze immer dann, wenn ein Punkt in der Szene heller oder dunkler wird. Jeder Blitz enthält Position, Zeit und die Information, ob die Helligkeit zugenommen oder abgenommen hat; die Zeiterfassung erfolgt in Mikrosekunden. Dadurch eignen sie sich besonders gut, Bewegung und Kanten zu erfassen, während weitgehend statische Hintergründe ausgeblendet werden. Für Aufgaben wie das Erkennen von Fußgängern und das Antizipieren ihrer Absicht kann diese „nur was sich ändert“-Sicht effizienter, schneller und robuster gegenüber Blendung, Schatten oder Scheinwerfern sein als herkömmliches Video.

Aufbau einer virtuellen Stadt voller Zebrastreifen

Um Wissenschaftlern kontrollierte Daten zur Verfügung zu stellen, verwendeten die Autoren zunächst den Fahrsimulator CARLA, um Hunderte virtueller Straßenszenen zu erzeugen. Ein autonomes Fahrzeug nähert sich einem Zebrastreifen, während ein digitaler Fußgänger möglicherweise oder möglicherweise nicht die Straße betritt. Beleuchtung (Tag, Dämmerung, Nacht) und Wetter (klar, Regen, Nebel) werden von Durchlauf zu Durchlauf variiert, ebenso das Aussehen der Fußgänger und das genaue Timing eines Überquerens. Zwei virtuelle Sensoren — eine gewöhnliche Farbkamera und eine simulierte Ereigniskamera — blicken aus der Perspektive des Fahrers. Das System zeichnet Standardvideo mit 30 Bildern pro Sekunde und parallel dazu den Ereignisstrom in „Ereignisbilder“ kompakt alle 33 Millisekunden auf, sodass sie mit jedem Videobild übereinstimmen. Jeder Frame ist einfach als „überquert“ oder „nicht überquert“ gelabelt, was das Trainieren und Testen fußgängerbewusster Systeme erleichtert.

Echte Dashcams in Ereignisströme verwandeln

Virtuelle Szenen allein reichen nicht aus: echte Straßen sind unordentlicher. Um dies abzubilden, baute das Team eine zweite Komponente auf Grundlage einer weit verbreiteten Dashcam-Sammlung namens JAAD, die kurze Clips urbaner Fahrten mit sorgfältig annotiertem Fußgängerverhalten enthält. Sie konvertierten alle 346 Clips mit einem Werkzeug, das simuliert, wie eine Ereigniskamera auf jedes Frame reagieren würde. Dieses Werkzeug modelliert Helligkeitsänderungen an jedem Pixel und interpoliert sogar zwischen den Frames, um kontinuierliche Bewegung zu approximieren. Das Ergebnis ist eine „synthetische Ereignissicht“ realer Straßen, mit scharfen Bewegungs­kanten, wo sich Menschen und Fahrzeuge bewegen, während ein großer Teil des statischen Hintergrunds verschwindet. Die Autoren verglichen diese konvertierten Ströme mit Daten physischer Ereigniskameras aus der Fertigung und zeigten, dass die synthetischen Ereignisse den realen in Aktivität, Struktur und Timing entsprechen.

Was das Datenset enthält und wie es abschneidet

DVS‑PedX kombiniert 198 simulierte Sequenzen aus CARLA und 346 konvertierte Realwelt-Clips aus JAAD. Jede Sequenz bietet passende Paare aus Farbaufnahmen und Ereignisbildern, Roh-Ereignisdateien für feinkörnige Timing-Analysen und Frame‑Level‑Labels für Überquerungen. Die Überquerungen selbst sind vergleichsweise selten und spiegeln den realen Verkehr wider, wodurch das Lernproblem realistisch und herausfordernd bleibt. Um zu zeigen, dass das Datenset nützlich, aber nicht trivial ist, trainierten die Autoren spiking neural networks — Algorithmen, die Informationen in diskreten Impulsen verarbeiten, ähnlich biologischen Neuronen. Diese Modelle schnitten bei den synthetischen Sequenzen gut ab, verloren jedoch an Genauigkeit, wenn sie direkt auf die konvertierten Realdaten getestet wurden, verbesserten sich dann aber wieder, wenn ein Teil echter Daten ins Training gemischt wurde. Diese „Simulation‑zu‑Realität‑Lücke“ bestätigt, dass das Datenset Forschung in Domänenanpassung und multimodaler Fusion vorantreiben kann.

Figure 2
Figure 2.

Sicherere Straßen durch klügere Sensorik

Einfach gesagt ist DVS‑PedX eine sorgfältig zusammengestellte Sammlung von Momenten, in denen Menschen möglicherweise die Straße überqueren oder nicht, sichtbar sowohl durch gewöhnliche als auch ereignisbasierte „Augen“. Indem es saubere Simulationen und raue reale Dashcam-Aufnahmen verbindet und klare Labels sowie Open‑Source‑Werkzeuge bereitstellt, bietet es Forschern einen gemeinsamen Teststand, um zu untersuchen, wie Fußgänger erkannt und ihre Absichten unter schwierigen Bedingungen antizipiert werden können. Die Hoffnung ist, dass zukünftige Fahrerassistenz‑ und Robotersysteme, die aus diesem Datenset lernen, schneller und zuverlässiger reagieren — und uns damit einen Schritt näher zu sichereren, aufmerksamer arbeitenden Maschinen auf unseren Straßen bringen.

Zitation: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

Schlüsselwörter: Ereigniskameras, Fußgängersicherheit, autonomes Fahren, neuromorphe Vision, Verkehrsdatensätze