Clear Sky Science · pl

YOLO-DC do wykrywania pojazdów z użyciem deformowalnych sieci splotowych i uwagi współkanałowej z koordynatami

· Powrót do spisu

Dlaczego wykrywanie samochodów z kamer ma rzeczywiste znaczenie

Współczesne miasta polegają na kamerach obserwujących zatłoczone drogi, które pomagają zarządzać korekami i torują drogę dla samochodów autonomicznych. Jednak niezawodne wychwycenie wszystkich pojazdów na nagraniach jest zaskakująco trudne, zwłaszcza gdy samochody są małe w oddali, częściowo zasłonięte w korku lub rozmyte przez deszcz, mgłę czy ciemność. W artykule tym przedstawiono YOLO‑DC — nowy system widzenia komputerowego, który ma na celu szybkie i dokładne wykrywanie samochodów, autobusów i innych pojazdów, nawet w trudnych, rzeczywistych warunkach i na urządzeniach o ograniczonej mocy obliczeniowej.

Problem komunikacyjny stojący za badaniem

Rozrastające się miasta zmagają się z zatkanymi drogami, większą liczbą wypadków i rosnącymi emisjami. Inteligentne systemy transportowe obiecują pomoc, monitorując ruch w czasie rzeczywistym i kierując zarówno kierowcami, jak i pojazdami autonomicznymi. Kluczowym elementem jest szybkie i niezawodne wykrywanie pojazdów w wideo. Wcześniejsze, „dwustopniowe” algorytmy skanują obrazy wielokrotnie i mogą być bardzo dokładne, ale często są zbyt wolne do zastosowań w czasie rzeczywistym na kamerach przydrożnych lub w samochodach. Nowsze systemy „jednostopniowe”, takie jak rodzina YOLO („You Only Look Once”), poświęcają nieco złożoności na rzecz znacznie wyższej prędkości, co czyni je popularnymi w praktyce. Mimo to wciąż mają problemy z małymi, nachodzącymi na siebie pojazdami oraz z surową pogodą, która zaciera szczegóły. YOLO‑DC bazuje na najnowszym modelu YOLOv8 i przeprojektowuje jego wewnętrzne warstwy, aby lepiej radzić sobie z tymi wyzwaniami.

Jak YOLO‑DC widzi więcej dzięki inteligentniejszemu skupieniu

W centrum YOLO‑DC znajduje się przebudowana „kręgosłupowa” sieć (backbone), część, która jako pierwsza przetwarza surowe obrazy na abstrakcyjne cechy. Autorzy wprowadzają mechanizm zwany uwagą współkanałową z koordynatami (cross‑channel coordinate attention), który skutecznie uczy sieć nie tylko gdzie patrzeć na obrazie, ale też jakie typy wzorców wizualnych zasługują na większe znaczenie. W połączeniu z tzw. deformowalnymi splotami — filtrami, które mogą wyginać swój wzorzec próbkowania, by podążać za pochylonymi lub nietypowo ukształtowanymi pojazdami — ten kręgosłup lepiej dostosowuje się do samochodów widzianych pod różnymi kątami, skalami i pozycjami. Zamiast traktować każdy fragment drogi jednakowo, system uczy się podkreślać charakterystyczne kontury i tekstury, które odróżniają prawdziwe pojazdy od budynków, drzew czy oznakowania drogowego.

Figure 1
Figure 1.

Wykrywanie małych i dalekich pojazdów bez spowalniania

Środkowa część modelu, znana jako neck, odpowiada za łączenie informacji z widoków ogólnych, „z oddali”, z detalami zbliżonymi. YOLO‑DC ulepsza ten etap na dwa sposoby. Po pierwsze, moduł uwagi z priorem kanałów pomaga sieci tłumić szum i uwydatniać subtelne wskazówki pochodzące od malutkich pojazdów daleko w kadrze. Po drugie, przeprojektowany blok inspirowany lekką architekturą FasterNet zmniejsza liczbę operacji, stosując pełne sploty tylko do części danych, a następnie efektywnie je miksując. Ta przemyślana zmiana redukuje zarówno liczbę parametrów, jak i ruch pamięciowy, pozwalając modelowi działać szybciej przy jednoczesnej poprawie dokładności — rzadko spotykane, ale bardzo pożądane połączenie dla urządzeń brzegowych, takich jak kamery drogowe czy komputery pokładowe.

Widzienie pojazdów w wielu rozmiarach i w złej pogodzie

Ostatni etap, czyli head, decyduje, gdzie znajdują się obiekty i czym są. YOLO‑DC wprowadza tu wieloskalowe grupowane sploty (multi‑scale grouped convolutions), dzieląc mapy cech na kilka grup kanałów, z których każda używa różnych rozmiarów filtrów przed ponownym połączeniem. Daje to detektorowi bogatsze rozumienie skali, dzięki czemu może jednocześnie rozpoznawać ogromne autobusy wypełniające kadr, średniej wielkości ciężarówki i malutkie samochody ledwo widoczne w oddali. W rozległych testach na zbiorze UA‑DETRAC, zawierającym sceny drogowe w warunkach zachmurzonych, słonecznych, deszczowych i nocnych, YOLO‑DC dorównał lub przewyższył dokładność najlepszych detektorów, przy zużyciu tylko ułamka ich obliczeń i działaniu setek klatek na sekundę na nowoczesnym sprzęcie. Na zbiorze DAWN, stworzonym specjalnie dla warunków mgły, deszczu, śniegu i burz piaskowych, nowy model osiągnął szczególnie duże zyski w silnym deszczu i gęstej mgle, gdzie tradycyjne systemy często zawodzą.

Figure 2
Figure 2.

Co wyniki oznaczają dla codziennych dróg

Dla laików główny przekaz jest taki, że YOLO‑DC lepiej „widzi” rzeczywisty ruch drogowy takim, jakim jest: zatłoczony, chaotyczny i często zasłonięty przez złą pogodę lub słabe oświetlenie. Łącząc elastyczne filtry, które podążają za kształtami pojazdów, z mechanizmami uwagi skupiającymi się na najbardziej informacyjnych obszarach, system wykrywa więcej pojazdów, popełnia mniej pominięć i działa wystarczająco szybko do analizy wideo na żywo na skromnym sprzęcie. To czyni go obiecującym elementem dla inteligentniejszego zarządzania ruchem, bardziej niezawodnego monitoringu wypadków i bezpieczniejszej jazdy autonomicznej — przy jednoczesnym utrzymaniu kosztów przetwarzania na poziomie umożliwiającym szerokie wdrożenie w miejskiej infrastrukturze i przyszłych pojazdach.

Cytowanie: Liu, Z., Zhu, M., Gao, B. et al. YOLO-DC for vehicle detection using deformable convolutional networks and cross-channel coordinate attention. Sci Rep 16, 6284 (2026). https://doi.org/10.1038/s41598-026-37094-w

Słowa kluczowe: wykrywanie pojazdów, inteligentny transport, YOLO, niekorzystne warunki pogodowe, wizja w czasie rzeczywistym