Clear Sky Science · nl

DeCon-Net: ontkoppelde hiërarchische contrasten voor objectdetectie in voetbal

· Terug naar het overzicht

Waarom spelers en de bal vinden lastiger is dan het lijkt

Moderne voetbaluitzendingen zitten vol graphics, statistieken en instant replays, allemaal aangestuurd door computersystemen die eerst een ogenschijnlijk eenvoudige vraag moeten beantwoorden: waar zijn de spelers en de bal in elk frame? Dit artikel onderzoekt waarom de huidige toonaangevende AI‑tools nog steeds moeite hebben met die fundamentele taak in echte wedstrijden — en introduceert een nieuwe methode, DeCon‑Net, die het automatisch detecteren van spelers en de bal veel betrouwbaarder maakt, vooral in rommelige, drukke scènes.

Figure 1
Figure 1.

Drie verborgen problemen in voetbalvideo’s

Op het eerste gezicht lijkt het detecteren van spelers en de bal eenvoudig: ze bewegen, hebben duidelijke vormen en steken af tegen het veld. Maar de auteurs tonen aan dat standaard computervisie‑systemen door drie onderling verbonden problemen worden gehinderd. Ten eerste worden teamgenoten die identieke tenues dragen voor het algoritme bijna niet van elkaar te onderscheiden, waarbij hun interne “feature”‑beschrijvingen samenklonteren tot vrijwel identieke punten. Ten tweede tekenen detectors in drukke mêlees vaak één grote begrenzingsbox rond meerdere spelers in plaats van afzonderlijke vakken voor elk individu. Ten derde is de bal tiny — soms slechts enkele tientallen pixels — en is het visuele signaal zo zwak dat het kan worden overstemd door grastextuur en spelersbeweging, waardoor het systeem de bal helemaal mist.

Het uiteenvallen van wat het netwerk leert

DeCon‑Net pakt deze problemen aan door te veranderen hoe een neuraal netwerk vastlegt wat het in een frame ziet. In plaats van het model één samengevoegde beschrijving per object te laten leren, splitsen de auteurs die beschrijving in twee complementaire onderdelen. De ene stroom legt vast wat teamgenoten gemeen hebben — zoals shirtkleur — terwijl de andere stroom zich richt op wat elk individu uniek maakt, zoals lichaamshouding of exacte positie. Een speciale trainingstruc keert de gradient om voor de ‘individuele’ stroom wanneer het netwerk probeert teaminformatie daarin te gebruiken, waardoor het effectief wordt geleerd shirtkleur te negeren en zich te concentreren op persoonspecifieke aanwijzingen. De twee stromen worden vervolgens adaptief weer samengevoegd, zodat het systeem in eenvoudige scènes meer kan leunen op gedeelde eigenschappen en bij samendrukking juist meer op individuele kenmerken.

Het model leren met vergelijkingen, niet alleen labels

Bovenop deze gesplitste representatie herontwerpt DeCon‑Net het leerproces zelf. De methode voegt een hiërarchische “contrastieve” trainingsstap toe die voortdurend paren van gedetecteerde objecten vergelijkt. Paren die al duidelijk verschillend zijn krijgen zachte correcties, terwijl paren die verwarrend vergelijkbaar lijken — zoals twee ploeggenoten schouder aan schouder — agressiever worden getraind om in de interne ruimte van het netwerk uit elkaar te bewegen. Deze driedelige strategie begint met makkelijke onderscheidingen, gaat dan naar subtielere verschillen binnen een team en eindigt met variaties tussen verschillende wedstrijden en uitzendingcondities. Om de kleine bal te redden van over het hoofd gezien worden, versterkt de methode ook de invloed van zeer kleine objecten tijdens training, zodat het bal‑signaal opvalt in plaats van weg te vallen in de achtergrondruis.

Van labbenchmarks naar echte sportuitzendingen

De onderzoekers testten DeCon‑Net op twee veeleisende datasets: SportsMOT, die voetbal, basketbal en volleybal omvat, en SoccerNet‑Tracking, opgebouwd uit echte tv‑uitzendingen met camerazooms, bewegingsonscherpte en frequente occlusies. Over de hele linie detecteerde DeCon‑Net zowel spelers als ballen nauwkeuriger dan veelgebruikte systemen gebouwd op Faster R‑CNN, DETR en recente trackinggerichte methoden. De verbetering was bijzonder opvallend voor de bal, met een nauwkeurigheidsstijging van meer dan 40 procent ten opzichte van sterke baselines. Het systeem bleef ook beter presteren wanneer het op een andere dataset werd toegepast dan waarop het was getraind, wat erop wijst dat het ontwerp met gesplitste features meer algemene, herbruikbare aanwijzingen over sportscènes vastlegt.

Figure 2
Figure 2.

Wat dit betekent voor de toekomst van sportanalyse

In gewone bewoordingen laat het artikel zien dat veel huidige AI‑systemen voetbal op een te simplistische manier ‘zien’: ze groeperen dezelfde‑team spelers en negeren de bal bijna wanneer de actie hectisch wordt. DeCon‑Net gaat hiertegenin door het netwerk te dwingen apart te leren wie bij welk team hoort en wie welk individu is, terwijl het extra aandacht geeft aan kleine, gemakkelijk te missen objecten. Het resultaat is een nauwkeuriger, betrouwbaarder kaart van elke speler en de bal op het veld, frame voor frame. Die basis kan krachtigere tactische analyses voor coaches mogelijk maken, rijkere graphics voor omroepen en nauwkeurigere statistieken voor fans, en brengt ons dichter bij een echt intelligente, geautomatiseerde begrip van het spel.

Bronvermelding: Ouyang, Q., Du, T. & Li, Q. DeCon-Net: decoupled hierarchical contrast for soccer object detection. Sci Rep 16, 7571 (2026). https://doi.org/10.1038/s41598-026-39084-4

Trefwoorden: voetbalvideo-analyse, objectdetectie, sportanalyse, computervisie, baltracking