Clear Sky Science · pl

YOLC z dynamiczną rzadką mechaniką uwagi do wykrywania szybko poruszających się małych obiektów w obrazach ze sprzętu ubieranego

2026-02-01 · Powrót do spisu

Widzieć sport oczami zawodnika

Wyobraź sobie oglądanie serwisu tenisowego lub wymiany w tenisie stołowym nie z trybun, lecz przez kamerę przymocowaną do głowy sportowca. Piłka mknie przez pole widzenia jako maleńka plamka, a trenerzy i analitycy chcieliby dokładnie wiedzieć, gdzie wylądowała, jak szybko leciała i jak zareagowali zawodnicy. W artykule przedstawiono nowy system widzenia komputerowego o nazwie YOLC, zaprojektowany do wykrywania i śledzenia takich szybkich, małych obiektów w czasie rzeczywistym na niewielkich, energooszczędnych urządzeniach ubieralnych.

Dlaczego drobne, szybkie cele są tak trudne do uchwycenia

Kamera noszona na ciele stała się powszechna w treningu sportowym, rejestrując materiał „z pierwszej osoby” z meczów i ćwiczeń. Jednak z tej perspektywy kluczowe obiekty – lotka, piłka tenisowa czy startowa stopa sprintera – często zajmują tylko kilka pikseli i przesuwają się bardzo szybko między klatkami. Istniejące systemy wykrywania są albo zbyt ciężkie dla urządzeń o niskim poborze mocy, albo tracą obiekty, gdy są małe, rozmyte lub daleko. Autorzy pokazują, że w rzeczywistych materiałach sportowych wiele celów ma rozmiar mniejszy niż 32 na 32 piksele i porusza się tak szybko, że standardowe metody je przegapiają lub wielokrotnie tracą ich tożsamość, przerywając trajektorie i osłabiając rzetelną analizę wyników.

Lekki potok wizji dla kamer ubieralnych

Badacze wprowadzają YOLC (skrót od „You Only Look Clusters”) — kompletny potok detekcji i śledzenia dostosowany do sprzętu brzegowego, takiego jak NVIDIA Jetson Nano. Jego rdzeń stanowi uproszczony ekstraktor cech zbudowany z wydajnej rodziny sieci neuronowych MobileNet, przeprojektowany tak, by wykorzystywać głównie „tanie” operacje zmniejszające zarówno pamięć, jak i obciążenie obliczeniowe przy zachowaniu wystarczającej szczegółowości do wychwytywania maleńkich obiektów. Klatki wideo są skalowane do zrównoważonej rozdzielczości, a system generuje trzy poziomy map cech: jeden podkreślający drobne detale dla małych celów, drugi dla obiektów średnich, oraz trzeci z silniejszą semantyką wysokiego poziomu dla dużych lub odległych elementów. Te wieloskalowe mapy zasilają resztę systemu, starannie zaprojektowanego, by wycisnąć jak najwięcej informacji z każdego obliczenia.

Pozwolić sieci patrzeć tylko tam, gdzie to ważne

Kluczową innowacją jest mechanizm „dynamicznej rzadkiej uwagi”, który naśladuje sposób, w jaki człowiek zerka tylko na najbardziej informacyjne części sceny. Zamiast przetwarzać każdy piksel jednakowo, YOLC mierzy, jak bardzo obraz zmienia się lokalnie — na przykład wzdłuż krawędzi, narożników czy konturu poruszającej się piłki — i tworzy mapę miejsc o najsilniejszej teksturze. Następnie zachowuje tylko około 30 procent tych lokalizacji o najwyższej reakcji do dalszego przetwarzania, skutecznie wyłączając hałaśliwe obszary tła, takie jak ściany, trybuny czy niebo. Specjalny trik treningowy pozwala modelowi pozostać w pełni trenowalnym pomimo tego twardego odcięcia. Ten selektywny fokus nie tylko poprawia dokładność przez ignorowanie rozpraszaczy, lecz także znacznie ogranicza zakres obliczeń wymaganych od sieci, co jest kluczową zaletą na zasilanych bateryjnie urządzeniach ubieralnych.

Od ostrych cech do stabilnych trajektorii

Po skupieniu się na kluczowych obszarach YOLC łączy informacje w różnych skalach za pomocą dwukierunkowej piramidy cech, która przekazuje sygnały zarówno od warstw grubych do drobnych, jak i od drobnych do grubych. Siła tych połączeń jest kierowana tą samą mapą uwagi, dzięki czemu ważne małe obiekty są wzmacniane na każdym etapie. W końcowym kroku detekcji dodatkowy moduł „uwagi przestrzennej” pomaga systemowi lepiej rozumieć, gdzie obiekty znajdują się w kadrze, łącząc sygnały w kierunkach poziomym i pionowym. Aby zamienić detekcje klatka-po-klatce w płynne trajektorie w czasie, metoda dodaje lekki moduł przepływu optycznego — narzędzie szacujące ruch pikseli między kolejnymi klatkami — oraz dwustopniowy schemat dopasowywania, który najpierw paruje detekcje o wysokim zaufaniu z istniejącymi śladami, a następnie ostrożnie ponownie wykorzystuje pudełka o niższym zaufaniu, które pasują do oczekiwanego ruchu. Razem te elementy redukują zamiany tożsamości i luki, nawet gdy obiekty przecinają ścieżki lub są chwilowo ukryte.

Wydajność w rzeczywistych warunkach

Zespół przetestował YOLC na niestandardowym zbiorze danych sportowych obejmującym badminton, koszykówkę, tenis, sprint i tenis stołowy, wszystkie nagrane kamerą zamocowaną na głowie w rzeczywistych warunkach treningowych. Na tym wymagającym materiale system działa z prędkością 53,5 klatki na sekundę, mając jedynie 1,78 miliona parametrów — znacznie mniej niż wiele popularnych detektorów obiektów. Osiąga wynik detekcji (mAP@0.5) na poziomie 75,3 procent oraz recall dla małych obiektów powyżej 80 procent, przewyższając kilka znanych lekkich modeli. W benchmarkach śledzenia YOLC utrzymuje dłuższe, bardziej niezawodne trajektorie i drastycznie redukuje zmiany tożsamości. Dowodzi też odporności na rozmycie ruchu i drgania kamery, mniej więcej zmniejszając o połowę wskaźnik fałszywych alarmów w porównaniu z metodami konkurencyjnymi.

Co to oznacza dla sportu i nie tylko

Dla trenerów, analityków i producentów sprzętu przekaz jest jasny: dokładne zrozumienie szybkich akcji sportowych w czasie rzeczywistym nie musi zależeć od masywnych serwerów czy krystalicznie czystych materiałów w jakości telewizyjnej. Poprzez ostrożne decydowanie, gdzie i kiedy poświęcić zasoby obliczeniowe, YOLC zamienia zaszumione, „z pierwszej osoby” nagrania ubieralne w szczegółowe rejestry ruchu i interakcji małych, szybkich obiektów z zawodnikami. To może umożliwić bogatszą informację zwrotną podczas treningu, bezpieczniejszy monitoring w sportach o dużej intensywności i, szerzej, inteligentniejsze systemy wizyjne na dowolnym małym urządzeniu, które musi widzieć wyraźnie przy ograniczonych zasobach sprzętowych.

Cytowanie: Chen, H., Song, Y., Liu, W. et al. YOLC with dynamic sparse attention for high-speed small target detection in wearable sports images. Sci Rep 16, 6858 (2026). https://doi.org/10.1038/s41598-026-38079-5

Słowa kluczowe: wizja w sporcie noszona na ciele, wykrywanie małych obiektów, śledzenie w czasie rzeczywistym, edge AI, mechanizmy uwagi