Clear Sky Science · pl

DeCon-Net: rozdzielona hierarchiczna kontrastowość dla detekcji obiektów w piłce nożnej

2026-02-06 · Powrót do spisu

Dlaczego wykrywanie zawodników i piłki jest trudniejsze, niż się wydaje

Współczesne transmisje piłkarskie są pełne grafiki, statystyk i powtórek, a wszystko to napędzane jest przez systemy komputerowe, które muszą najpierw odpowiedzieć na pozornie proste pytanie: gdzie są zawodnicy i piłka w każdej klatce? Artykuł wyjaśnia, dlaczego wciąż wiodące narzędzia sztucznej inteligencji mają problemy z tym podstawowym zadaniem w rzeczywistych meczach — i przedstawia nową metodę, DeCon‑Net, która sprawia, że automatyczna detekcja zawodników i piłki jest znacznie bardziej niezawodna, zwłaszcza w chaotycznych, zatłoczonych scenach.

Trzy ukryte problemy w materiałach wideo z meczów

Na pierwszy rzut oka wykrywanie zawodników i piłki wydaje się proste: poruszają się, mają wyraźne kształty i odcinają się od murawy. Autorzy pokazują jednak, że standardowe systemy wizji komputerowej cierpią z powodu trzech splecionych problemów. Po pierwsze, koledzy z tej samej drużyny w identycznych strojach stają się dla algorytmu niemal nie do odróżnienia — jego wewnętrzne „cechy” opisujące ich zlewają się w niemal identyczne punkty. Po drugie, w zatłoczonych starciach zawodnicy zachodzą na siebie tak bardzo, że detektory często rysują jeden duży prostokąt obejmujący kilka osób, zamiast oddzielnych ramek dla każdej z nich. Po trzecie, piłka jest malutka — czasem ma tylko kilka tuzinów pikseli — a jej sygnał wizualny jest tak słaby, że może zostać zagłuszony przez teksturę trawy i ruch zawodników, co sprawia, że system w ogóle jej nie dostrzega.

Rozdzielanie tego, czego sieć się uczy

DeCon‑Net rozwiązuje te problemy, zmieniając sposób, w jaki sieć neuronowa reprezentuje to, co widzi w klatce. Zamiast pozwalać modelowi uczyć się jednej zmiksowanej reprezentacji dla każdego obiektu, autorzy dzielą ten opis na dwie komplementarne części. Jeden strumień wychwytuje cechy wspólne dla zawodników tej samej drużyny — takie jak kolor koszulek — podczas gdy drugi koncentruje się na tym, co czyni każdego zawodnika unikalnym, np. na sylwetce czy dokładnej pozycji. Specjalny trik w treningu odwraca gradient dla strumienia „indywidualnego” zawsze, gdy sieć próbuje tam użyć informacji o drużynie, skutecznie ucząc go ignorować kolor koszulek i skupiać się na cechach specyficznych dla osoby. Oba strumienie są następnie adaptacyjnie łączone, tak aby system mógł mocniej polegać na cechach wspólnych w prostych scenach, a na cechach indywidualnych, gdy zawodnicy tłoczą się razem.

Uczenie modelu przez porównania, nie tylko etykiety

Ponadto DeCon‑Net przekształca sam proces uczenia. Metoda dodaje hierarchiczny krok treningu „kontrastowego”, który stale porównuje pary wykrytych obiektów. Pary, które są już wyraźnie różne, otrzymują delikatne poprawki, podczas gdy pary wyglądające myląco podobnie — na przykład dwaj koledzy stojący ramię w ramię — są trenowane bardziej agresywnie, aby oddalić się od siebie w wewnętrznej przestrzeni sieci. Ta trzypoziomowa strategia zaczyna od łatwych rozróżnień, następnie przechodzi do subtelniejszych różnic w obrębie drużyny, a w końcu do wariacji między różnymi meczami i warunkami transmisji. Aby uratować malutką piłkę przed przeoczeniem, metoda zwiększa też wagę bardzo małych obiektów podczas treningu, sprawiając, że sygnał piłki wyróżnia się zamiast zanikać w tle.

Od benchmarków laboratoryjnych do rzeczywistych transmisji sportowych

Naukowcy przetestowali DeCon‑Net na dwóch wymagających zbiorach danych: SportsMOT, obejmującym piłkę nożną, koszykówkę i siatkówkę, oraz SoccerNet‑Tracking, zbudowanym z prawdziwych transmisji telewizyjnych z zoomami kamery, rozmyciami ruchu i częstymi zasłonięciami. W całym zakresie DeCon‑Net wykrywał zarówno zawodników, jak i piłkę dokładniej niż szeroko stosowane systemy oparte na Faster R‑CNN, DETR i ostatnie metody skoncentrowane na śledzeniu. Zyski były szczególnie widoczne w przypadku piłki, z poprawą dokładności przekraczającą 40 procent w porównaniu z silnymi bazami. System zachowywał też większą odporność po zastosowaniu do innego zbioru danych niż ten, na którym był trenowany, co sugeruje, że jego rozdzielony projekt cech wychwytuje bardziej ogólne, wielokrotnego użytku wskazówki dotyczące scen sportowych.

Co to oznacza dla przyszłości analiz sportowych

Mówiąc prościej, artykuł pokazuje, że wiele obecnych systemów AI „widzi” piłkę nożną w uproszczony sposób: grupuje zawodników jednej drużyny i niemal ignoruje piłkę, gdy akcja robi się gorąca. DeCon‑Net przeciwdziała temu, zmuszając sieć do oddzielnego uczenia, kto do której drużyny należy i kto jest którą osobą, jednocześnie poświęcając dodatkową uwagę małym, łatwym do przeoczenia obiektom. Efektem jest dokładniejsza, bardziej niezawodna mapa każdego zawodnika i piłki na polu, klatka po klatce. Ta podstawa może zasilać lepsze analizy taktyczne dla trenerów, bogatsze grafiki dla nadawców i dokładniejsze statystyki dla kibiców, przybliżając nas do rzeczywiście inteligentnego, zautomatyzowanego rozumienia gry.

Cytowanie: Ouyang, Q., Du, T. & Li, Q. DeCon-Net: decoupled hierarchical contrast for soccer object detection. Sci Rep 16, 7571 (2026). https://doi.org/10.1038/s41598-026-39084-4

Słowa kluczowe: analiza wideo piłkarskiego, detekcja obiektów, analityka sportowa, wizja komputerowa, śledzenie piłki