Clear Sky Science · pl

Uczenie samonadzorowane uwzględniające semantykę z progresywną regresją pod-akcji do oceny jakości ruchu

· Powrót do spisu

Widzieć występ przez nowe pryzmat

Kiedy oglądamy skoczków do wody z igrzysk olimpijskich lub innych czołowych sportowców, instynktownie wyczuwamy, kto wypadł lepiej, ale przełożenie tej intuicji na obiektywne liczby jest trudne. Dzisiejsze zautomatyzowane systemy wideo potrafią przyznać ogólną „ocenę” akcji, lecz rzadko wyjaśniają, dlaczego skok był dobry lub słaby ani która część wymaga poprawy. W artykule przedstawiono nowy sposób, w jaki komputer może obserwować złożone akcje na wideo, rozbijać je na zrozumiałe fragmenty i punktować każdy z nich osobno — oferując informację zwrotną bliższą temu, co mógłby dać ludzki trener.

Figure 1
Figure 1.

Rozbijanie złożonego ruchu na zarządzalne części

Wiele obecnych narzędzi do oceny jakości traktuje cały skok lub ruch jako jedną całość, generując jedynie pojedynczą ocenę. To zaciera istotne szczegóły: skoczek może wykonać doskonałe wybicie, a następnie słabo wejść do wody, a jedna liczba tego nie ujawni. Autorzy rozwiązują ten problem, ucząc komputer dzielenia każdego wideo na sensowne etapy, czyli pod-akcje, takie jak przygotowanie, wybicie, lot i wejście do wody. Co istotne, to dzielenie odbywa się automatycznie, bez ręcznego oznaczania granic między etapami. Nie nadzorowana metoda klastrowania grupuje sąsiednie klatki, które „zachowują się” podobnie w czasie, dostarczając systemowi wstępnego, lecz wiarygodnego storyboardu wykonania.

Pozwolić systemowi samemu nauczyć się, co się liczy

Gdy wideo zostanie podzielone na etapy, system musi zrozumieć, jak każdy etap wygląda, gdy jest wykonany dobrze lub źle. Zamiast polegać na drobiazgowych, ręcznie przygotowanych etykietach, autorzy stosują uczenie samonadzorowane: modelowi pokazuje się wiele wersji tej samej pod-akcji, z których celowo usuwane są fragmenty klatek, czyli „maskowane”. System nadal musi wygenerować zbliżone wewnętrzne reprezentacje dla pełnych i częściowo niekompletnych klipów. Ucząc się ignorować te sztuczne luki, staje się odporny na rzeczywiste problemy, takie jak krótkotrwałe zasłonięcia, brakujące klatki czy nieco niedokładne granice etapów, i uczy się skupiać na istotnych wzorcach ruchu i postawy definiujących jakość.

Figure 2
Figure 2.

Od jednej ogólnej oceny do wielu przydatnych pod-ocen

Rzeczywiste zbiory danych zwykle zawierają tylko jedną ogólną ocenę dla każdego skoku, a nie oddzielne oceny dla poszczególnych etapów. Aby to obejść, autorzy wprowadzają progresywną strategię „pseudo-podoceny”. Najpierw łączą ogólną ocenę z nowo wyuczonymi cechami dla każdej pod-akcji i trenują niewielkie sieci, by zgadywały wstępną ocenę dla każdego etapu. Następnie udoskonalają te przypuszczenia, pozwalając informacjom przepływać wzdłuż sekwencji: cechy każdego etapu są aktualizowane przy użyciu ocen wcześniejszych etapów, co pozwala uchwycić, jak drobny błąd przy wybiciu może rozlać się na lot i wejście do wody. W drugiej wariancie każdy etap ma dostęp do wszystkich wcześniejszych ocen, modelując długodystansowe przyczyny i skutki w całej akcji. Na koniec kompaktowa sieć regresyjna łączy dopracowane oceny etapów w prognozę ogólną, już bez konieczności podawania rzeczywistej oceny jako wejścia.

Testy na rzeczywistych zawodach skoków

Badacze przetestowali swoje podejście na dwóch wymagających zbiorach danych ze skoków do wody, zarejestrowanych podczas dużych międzynarodowych zawodów. Kolekcje te zawierają ogólne oceny sędziów i w niektórych przypadkach przybliżone znaczniki czasowe etapów, ale brak w nich jakościowych etykiet na poziomie etapów. Nowa metoda osiągnęła stan wiedzy w korelacji rangowej, co oznacza, że jej porządkowanie zawodników bardzo dobrze pokrywa się z ocenami ekspertów, jednocześnie zmniejszając błędy numeryczne w przewidywanych wynikach. Dokładne testy „ablacyjne” wykazały, że obie główne koncepcje — samonadzorowane dopracowanie cech oraz progresywne modelowanie pseudo-podocen — wnoszą istotne ulepszenia. Co warte odnotowania, użycie automatycznych granic etapów radziło sobie prawie tak dobrze, jak żmudne ręczne adnotacje, co wskazuje na odporność systemu na niedoskonałą segmentację.

Przekształcanie liczb w użyteczne wskazówki trenerskie

Ponad samą dokładność, podejście to zwiększa interpretowalność automatycznego punktowania. Przyznając oddzielną ocenę każdemu etapowi skoku, system może wskazać, na przykład, że dwaj skoczkowie mają podobne wybicia i fazy lotu, ale znacznie różnią się przy wejściu do wody, gdzie jeden generuje duży plusk. Analiza wielu próbek potwierdza, że te oceny etapów podążają za tymi samymi priorytetami co sędziowie, często z wagą największą przypisaną fazie wejścia. W praktyce metoda może wskazać sportowcom i trenerom dokładny fragment wykonania wymagający poprawy, działając przy tym na stosunkowo prostych danych treningowych. Chociaż zademonstrowano ją na skokach do wody, koncepcja jest na tyle elastyczna, że można ją rozszerzyć na inne zadania wieloetapowe — od zabiegów chirurgicznych po ćwiczenia rehabilitacyjne — gdzie zrozumienie, jak każdy segment wpływa na ogólną jakość, jest kluczowe.

Cytowanie: Mazruei, M., Fazl-Ersi, E., Vahedian, A. et al. Semantic-aware self-supervised learning using progressive sub-action regression for action quality assessment. Sci Rep 16, 6670 (2026). https://doi.org/10.1038/s41598-026-36668-y

Słowa kluczowe: ocena jakości wykonania, analiza wideo sportowego, uczenie samonadzorowane, ocena ruchu człowieka, uczenie głębokie dla trenerów