Clear Sky Science · pl
Zbiór danych do wieloperspektywicznej analizy wideo ruchu ulicznego
Dlaczego wiele par oczu na ulicy ma znaczenie
Każdy, kto próbował przejść przez ruchliwą ulicę, wie, że samochody, rowery i ludzie poruszają się w sposób trudny do przewidzenia. Miasta sięgają po kamery i sztuczną inteligencję, by uczynić te przestrzenie bezpieczniejszymi, ale większość systemów nadal obserwuje drogę tylko z jednego kąta. Niniejszy artykuł przedstawia nowy publiczny zbiór wideo, który jednocześnie rejestruje to samo przejście przez jezdnię z trzech różnych perspektyw, dostarczając badaczom bogitego materiału źródłowego potrzebnego do budowy bezpieczniejszych i inteligentniejszych systemów ruchu.

Jedno przejście, trzy sposoby widzenia
Zbiór danych koncentruje się na jednej, codziennej scenie: przejściu dla pieszych na terenie kampusu Uniwersytetu w Murcji w Hiszpanii. Zamiast polegać na jednej kamerze, autorzy nagrali każde zdarzenie trzema urządzeniami pracującymi jednocześnie: kamerą zamontowaną na poruszającym się samochodzie zbliżającym się do przejścia, stałą kamerą na słupie przy drodze na podwyższeniu oraz kamerą na małym dronie unoszącym się nad miejscem. Razem te widoki rejestrują te same osoby i pojazdy z poziomu gruntu, z boku i z góry, wiernie odzwierciedlając, jak różni obserwatorzy mogliby zobaczyć ten sam moment w rzeczywistości.
Rejestrowanie zarówno rutynowych przejść, jak i rzadkich wypadków
Aby dane były użyteczne zarówno do codziennego monitoringu, jak i do analiz sytuacji awaryjnych, zespół przygotował dwa typy zdarzeń. W niektórych nagraniach piesi po prostu przechodzą, a samochód zatrzymuje się i czeka, co odzwierciedla normalne zachowania w ruchu. W innych aktor symuluje upadek na przejściu, naśladując wzorce ruchu zaprojektowane tak, by przypominać rzeczywisty wypadek. Samochód zawsze porusza się po tej samej trasie, a piesi powtarzają te same podstawowe ruchy, dzięki czemu badacze mogą porównywać, jak każdy scenariusz wygląda z różnych kamer i badać, jak nietypowe zdarzenia wyróżniają się na tle rutyny.
Od surowego nagrania do potężnego paliwa badawczego
Kluczową cechą zbioru danych jest to, że pliki wideo są przechowywane w formie surowej i nieedytowane. Jedynym przetwarzaniem jest dodanie precyzyjnych znaczników czasowych oraz prostego wizualnego sygnału: na początku każdego przejścia jeden z pieszych krótkotrwale podnosi rękę. Ułatwia to synchronizację klatek ze wszystkich trzech kamer, tak aby ten sam moment czasu można było badać z każdej perspektywy. 18 plików wideo obejmuje trzy konfiguracje kamer i dwa warunki przejścia (z upadkiem i bez) w trzech różnych rozmieszczeniach przestrzennych samochodu, urządzenia przydrożnego i drona. Badacze otrzymują także dodatkowe obrazy opisujące dokładne właściwości optyczne obiektywu kamery przydrożnej, co pomaga skorygować zniekształcenia w razie potrzeby.

Testowanie, jak dobrze maszyny rozumieją scenę
Aby sprawdzić użyteczność zbioru, autorzy przeprowadzili standardowe testy wykrywania obiektów, porównując swoje nagrania z dobrze znanymi kolekcjami wideo ruchu drogowego takimi jak KITTI, VisDrone i UA-DETRAC. Użyli nowoczesnych modeli detekcji do zlokalizowania osób na wideo i zmierzyli, jak dokładnie przewidywane kształty odpowiadają ręcznie weryfikowanym obrysom. Średnio nowy zbiór danych dał wyższe wyniki zarówno pod względem precyzji wykryć, jak i dopasowania kształtów ograniczających. Analizując, jak często każda osoba była widoczna w jednej, dwóch lub we wszystkich trzech perspektywach, zespół wykazał również, że nakładające się pokrycie z różnych kamer znacznie redukuje martwe punkty, gdy osoby są ukryte za samochodami lub elementami ulicznej infrastruktury.
Co to oznacza dla przyszłych ulic
Dla osób niebędących specjalistami kluczowy przekaz jest taki, że ten zbiór danych oferuje znacznie pełniejszy obraz tego, co dzieje się na przejściu dla pieszych niż wcześniejsze kolekcje. Łącząc widoki z samochodu, przydrożne i z powietrza w zsynchronizowany sposób, daje inżynierom i naukowcom realistyczne pole testowe do budowy systemów ruchu, które mogą śledzić ludzi bardziej niezawodnie, szybciej wykrywać wypadki i radzić sobie z rzeczywistymi komplikacjami, takimi jak przeszkody i zmieniające się punkty widzenia. W dłuższej perspektywie zasoby tego typu mogą przyczynić się do bezpieczniejszych przejść, bardziej responsywnych świateł drogowych i inteligentniejszych usług miejskich, które lepiej chronią wszystkich użytkowników drogi.
Cytowanie: Sanchez-Iborra, R., Kouvakis, V., Trevlakis, S.E. et al. Dataset for multi-perspective traffic video analysis. Sci Data 13, 543 (2026). https://doi.org/10.1038/s41597-026-06907-y
Słowa kluczowe: nadzór ruchu drogowego, wideo wielowidokowe, bezpieczeństwo pieszych, inteligentne miasta, zbiór danych wizji komputerowej