Clear Sky Science · pl

Algorytm śledzenia obiektów oparty na mechanizmie zdeformowanej uwagi

2026-03-06 · Powrót do spisu

Śledzenie w zatłoczonym, chaotycznym świecie

Nowoczesne kamery obserwują zatłoczone ulice, centra handlowe i hale produkcyjne, ale nauczenie komputerów śledzenia wielu poruszających się osób i obiektów w takich scenach jest zaskakująco trudne. Gdy ktoś przejdzie za filarem, gdy reflektory oślepią kamerę lub gdy tłum przeciska się przez drzwi, nawet zaawansowane oprogramowanie może stracić obiekt, pomylić tożsamości albo zużywać zbyt dużo mocy obliczeniowej. W artykule przedstawiono nowe podejście do śledzenia zaprojektowane tak, by bardziej niezawodnie utrzymywać cele w zasięgu uwagi w tych rzeczywistych, chaotycznych sytuacjach, przy jednoczesnym zachowaniu wydajności wystarczającej do praktycznego zastosowania.

Dlaczego tradycyjne metody zawodzą

Systemy śledzenia obiektów zwykle działają w trzech etapach: najpierw analizują każdą klatkę wideo, aby wydobyć cechy wizualne, potem łączą informacje z różnych skal i obszarów, a na końcu przewidują, jak każdy cel porusza się w czasie. Wiele nowoczesnych metod poprawia pojedyncze etapy — na przykład ulepsza detektor, przyspiesza obliczenia lub dodaje mądrzejsze modele ruchu. Jednak w zatłoczonych, szybko zmieniających się scenach słabości pomiędzy tymi częściami uwidaczniają się. Stałe „pola widzenia” w standardowych sieciach nie potrafią dostosować się do zginających się sylwetek czy zmieniających się póz, a przewidywanie ruchu zakładające gładkie, proste trajektorie może silnie dryfować, gdy osoby zatrzymują się, skręcają lub chwilowo znikają za przeszkodami.

Elastyczne oko dla poruszających się celów

Autorzy rozwiązują te ograniczenia, dając systemowi śledzenia bardziej elastyczny sposób „patrzenia” na scenę. Zaczynają od popularnego szkieletu przetwarzania obrazu, ResNet-18, i wzbogacają go o mechanizm zdeformowanej uwagi. Zamiast zawsze pobierać informacje wizualne w stałych, równomiernie rozmieszczonych punktach, mechanizm ten uczy się przesuwać miejsca próbkowania w kierunku najbardziej informatywnych obszarów osoby lub obiektu — na przykład konturu tułowia czy głowy — ignorując jednocześnie rozpraszające tło. Wstawiając tę elastyczną uwagę w głębsze warstwy sieci, system potrafi dostosowywać fokus, gdy ludzie zmieniają pozę, skalę lub są częściowo zasłonięci, bez znacznego obciążenia obliczeniowego. Testy na dużych benchmarkach pokazują, że to elastyczne „oko” nie tylko poprawia dokładność śledzenia, ale robi to przy wzroście kosztu obliczeniowego poniżej 8% i jedynie niewielkim wzroście liczby parametrów.

Łączenie detali między skalami i w czasie

Śledzenie wielu obiektów jednocześnie wymaga także rozumienia zarówno drobnych szczegółów, jak i szerszego kontekstu. W tym celu metoda wykorzystuje specjalny moduł fuzji cech — bidirectional feature pyramid — który miesza informacje z widoków o niskiej rozdzielczości i wysokiego poziomu z detalami o wysokiej rozdzielczości i niskim poziomie. Autorzy wzmacniają ten moduł tą samą ideą zdeformowanej uwagi, co pozwala lepiej dopasować cechy, które w przeciwnym razie mogłyby być niezgodne, gdy osoby nachodzą na siebie lub poruszają się szybko. To pomaga rozdzielać jednostki w gęstych tłumach i zmniejsza pomyłki tożsamości. W wymiarze czasowym algorytm opiera się na klasycznym narzędziu z teorii sterowania, filtrze Kalmana, ale w bardziej inteligentny sposób. Zamiast traktować przewidywanie modelu jako główną prawdę i detektor jako drobną korektę, zachowanie filtra jest napędzane przez pewność detektora w każdej klatce. Gdy detektor jest pewny, system ufa mu bezpośrednio i ogranicza narastanie błędów; gdy jest niepewny, filtr bardziej polega na wcześniejszym ruchu, płynnie łącząc oba źródła informacji.

Jak to działa w praktyce?

Zespół ocenił swoje podejście — nazwane DAM-Track — na wymagających publicznych zestawach danych przeznaczonych do testowania algorytmów śledzenia. W testach pojedynczych obiektów, które podkreślają długie sekwencje i trudne sytuacje, takie jak silne deformacje i całkowite zasłonięcia, ich zdeformowana uwaga w szkielecie poprawia współczynnik pokrycia i skuteczność w porównaniu do standardowego ResNet-18, bez dużych dodatkowych kosztów. Na słynnym benchmarku wieloobiektowym pełnym niezwykle gęstych tłumów pieszych, DAM-Track osiąga wyższą ogólną dokładność, lepszą lokalizację i lepszą spójność tożsamości niż szeroko stosowane metody, takie jak ByteTrack i DeepSORT. Utrzymuje więcej trajektorii przez dłuższy czas, traci mniej celów i szczególnie dobrze radzi sobie z unikanie przełączeń tożsamości, co jest kluczowe w zastosowaniach takich jak monitoring bezpieczeństwa czy analiza ruchu.

Co to oznacza dla codziennych zastosowań

Dla osoby niebędącej specjalistą wniosek jest taki, że praca ta sprawia, iż systemy śledzenia w widzeniu komputerowym są bardziej odporne w tych chaotycznych, nieprzewidywalnych scenach, które mają największe znaczenie w praktyce — od dworców i ulic po inteligentne sklepy i pojazdy autonomiczne. Pozwalając „spojrzeniu” systemu wyginać się ku ważnym regionom oraz koordynując ekstrakcję cech, fuzję wieloskalową i przewidywanie ruchu za pomocą wspólnego pojęcia pewności, autorzy budują system zamkniętej pętli, który lepiej śledzi, kto i gdzie się znajduje w czasie. Choć potrzebne są dalsze testy w warunkach nocnych, z ujęć z powietrza i w konfiguracjach wielokamerowych, ta elastyczna, świadoma pewności konstrukcja wskazuje drogę do nowej generacji systemów śledzenia zdolnych obserwować złożone środowiska bardziej niezawodnie, nie wymagając przy tym niepraktyycznych zasobów obliczeniowych.

Cytowanie: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x

Słowa kluczowe: śledzenie wielu obiektów, widzenie komputerowe, mechanizmy uwagi, nadzór tłumu, autonomiczna jazda