Clear Sky Science · ru

DVS-PedX: Синтетический и реальный датасет событийных камер для пешеходов

2026-03-06 · Назад к списку

Почему быстреее «глаза» на дороге имеют значение

Когда водитель приближается к пешеходному переходу, доля секунды может решить, успеет ли он остановиться вовремя. Современные системы помощи водителю обычно полагаются на обычные видеокамеры, которые захватывают целые кадры множество раз в секунду. Но новый тип «событийной камеры» работает больше как человеческая сетчатка: она реагирует только на изменения яркости в каждом пикселе. В этой статье представлен DVS‑PedX — большой набор данных, созданный, чтобы помочь исследователям обучать такие камеры и алгоритмы, вдохновлённые работой мозга, замечать, когда человек собирается перейти дорогу, даже под дождём, в тумане или ночью.

От обычного видео к новому виду зрения

Традиционные камеры делают полные снимки через равные промежутки времени, независимо от того, движется что‑то или нет. Событийные камеры, напротив, регистрируют крошечные вспышки информации всякий раз, когда точка в сцене становится светлее или темнее. Каждая вспышка содержит координаты, время и направление изменения яркости, при этом отсчёт времени ведётся в микросекундах. Это делает их естественно чувствительными к движению и границам объектов, в то же время игнорируя в основном статичный фон. Для задач вроде обнаружения пешеходов и предсказания их намерений такой «вид только того, что меняется» может быть более эффективным, быстрым и устойчивым к блику, теням или фарам по сравнению с обычным видео.

Построение виртуального города с пешеходными переходами

Чтобы дать учёным управляемые данные, авторы сначала использовали симулятор вождения CARLA для создания сотен виртуальных уличных сцен. Беспилотный автомобиль приближается к пешеходному переходу, а цифровой пешеход может либо ступить на дорогу, либо остаться на тротуаре. Освещение (день, сумерки, ночь) и погода (ясно, дождь, туман) перемешиваются в каждом прогоне, как и внешний вид пешеходов и точное время возможного перехода. Два виртуальных датчика — обычная цветная камера и смоделированная событийная камера — смотрят из точки зрения водителя. Система записывает стандартное видео с частотой 30 кадров в секунду и параллельно сводит поток событий в «кадры событий» каждые 33 миллисекунды, чтобы они совпадали с видеокадрами. Каждый кадр помечен просто как «пересекает» или «не пересекает», что упрощает обучение и тестирование систем, учитывающих пешеходов.

Преобразование реальных видеорегистраторов в потоки событий

Один лишь виртуальный материал недостаточен: реальные улицы намного более беспорядочны. Чтобы это учесть, команда добавила вторую компоненту из широко используемой коллекции видеорегистраторов JAAD, в которой представлены короткие ролики городского вождения с тщательно аннотированным поведением пешеходов. Все 346 клипов были прогнаны через конвертер, который симулирует отклик событийной камеры на каждый кадр. Этот инструмент моделирует изменения яркости в каждом пикселе и даже интерполирует между кадрами, чтобы приблизить непрерывное движение. В результате получается «синтетический событийный вид» реальных дорог, с чёткими границами движения там, где перемещаются люди и автомобили, а статичный фон во многом исчезает. Авторы сравнили эти преобразованные потоки с данными с физических событийных камер из производства, показав, что синтетические события соответствуют реальным по общей активности, структуре и точности во времени.

Что содержит датасет и как он работает

DVS‑PedX объединяет 198 смоделированных последовательностей из CARLA и 346 преобразованных реальных клипов из JAAD. Каждая последовательность содержит парные сопоставления цветных изображений и кадров событий, необработанные файлы событий для детального анализа времени и метки на уровне кадров о переходе. Сами переходы встречаются относительно редко, что отражает реальный трафик и делает задачу обучения реалистичной и сложной. Чтобы показать, что датасет полезен, но не тривиален, авторы обучили спайковые нейронные сети — алгоритмы, обрабатывающие информацию дискретными импульсами, подобно биологическим нейронам. Эти модели показали высокую эффективность на синтетических последовательностях, но теряли точность при непосредственном тестировании на преобразованных реальных данных, а затем улучшались, когда в обучение добавляли немного реальных примеров. Этот «базовый разрыв между симуляцией и реальностью» подтверждает, что датасет может стимулировать исследования в области адаптации доменов и мультимодального слияния.

Безопаснее улицы благодаря более умной сенсорике

Проще говоря, DVS‑PedX — это тщательно собранная библиотека моментов, когда люди могут или не могут перейти дорогу, увиденных как обычными, так и событийными «глазами». Объединив чистые симуляции и грубые реальные записи с видеорегистраторов, а также предоставив прозрачные метки и инструменты с открытым исходным кодом, он даёт исследователям общую тестовую площадку для изучения способов обнаружения пешеходов и предсказания их намерений в сложных условиях. Надежда в том, что, обучаясь на этом датасете, будущие системы помощи водителю и роботы будут реагировать быстрее и надёжнее — что приблизит нас к более безопасным и внимательным машинам на дорогах.

Цитирование: Sakhai, M., Sithu, K., Oke, M.K.S. et al. DVS-PedX: Synthetic-and-Real Event-Based Pedestrian Dataset. Sci Data 13, 614 (2026). https://doi.org/10.1038/s41597-026-06969-y

Ключевые слова: событийные камеры, безопасность пешеходов, автономное вождение, нейроморфное зрение, трафиковые датасеты