Clear Sky Science · it

DeCon-Net: contrasto gerarchico disaccoppiato per il rilevamento di oggetti nel calcio

· Torna all'indice

Perché individuare i giocatori e la palla è più difficile di quanto sembri

Le trasmissioni moderne di partite di calcio sono piene di grafica, statistiche e replay istantanei, tutti alimentati da sistemi informatici che devono prima rispondere a una domanda apparentemente semplice: dov’è ogni giocatore e la palla in ciascun fotogramma? Questo articolo analizza perché gli strumenti d’intelligenza artificiale di punta faticano ancora con questo compito nelle partite reali — e presenta un nuovo metodo, DeCon‑Net, che rende il rilevamento automatico di giocatori e palla molto più affidabile, soprattutto in scene caotiche e affollate.

Figure 1
Figure 1.

Tre problemi nascosti nei video di calcio

A prima vista, rilevare giocatori e palla sembra semplice: si muovono, hanno forme riconoscibili e risaltano rispetto al campo. Ma gli autori mostrano che i sistemi standard di visione artificiale soffrono di tre problemi intrecciati. Primo, i compagni di squadra che indossano uniformi identiche diventano quasi indistinguibili per l’algoritmo, le cui descrizioni interne (“feature”) collassano in punti quasi identici. Secondo, nelle risse affollate i giocatori si sovrappongono tanto che i rivelatori spesso disegnano una grande scatola di delimitazione intorno a più persone invece di box separati per ciascuno. Terzo, la palla è minuscola — a volte solo poche decine di pixel — e il suo segnale visivo è così debole da essere sovrastato dalla texture dell’erba e dal movimento dei giocatori, portando il sistema a trascurarla del tutto.

Separare ciò che la rete impara

DeCon‑Net affronta questi problemi cambiando il modo in cui una rete neurale rappresenta ciò che vede in un fotogramma. Invece di lasciare che il modello apprenda una descrizione unica e mescolata per ogni oggetto, gli autori dividono quella descrizione in due parti complementari. Un flusso cattura ciò che i giocatori della stessa squadra hanno in comune — come il colore della maglia — mentre l’altro si concentra su ciò che rende unico ogni individuo, come la posa del corpo o la posizione esatta. Una tecnica di addestramento speciale inverte il gradiente per il flusso “individuale” ogni volta che la rete cerca di usare informazioni di squadra lì, insegnandogli di fatto a ignorare il colore della maglia e a concentrarsi sui segnali specifici della persona. I due flussi vengono poi ricombinati in modo adattivo, così il sistema può appoggiarsi più ai tratti condivisi in scene semplici e più agli attributi individuali quando i giocatori si affollano.

Insegnare al modello tramite confronti, non solo etichette

Oltre a questa rappresentazione divisa, DeCon‑Net rimodella l’apprendimento stesso. Il metodo aggiunge una fase di addestramento “contrastiva” gerarchica che confronta continuamente coppie di oggetti rilevati. Le coppie già chiaramente differenti ricevono piccoli aggiustamenti, mentre le coppie che appaiono confusamente simili — come due compagni fianco a fianco — vengono addestrate più energicamente per allontanarsi nello spazio interno della rete. Questa strategia su tre livelli inizia con distinzioni facili, poi passa a differenze più sottili all’interno di una squadra e infine alle variazioni tra diverse partite e condizioni di trasmissione. Per salvare la palla minuscola dall’essere ignorata, il metodo aumenta anche l’influenza degli oggetti molto piccoli durante l’addestramento, facendo risaltare il segnale della palla invece di farlo svanire nel rumore di fondo.

Dal banco di prova ai veri broadcast sportivi

I ricercatori hanno testato DeCon‑Net su due dataset impegnativi: SportsMOT, che include calcio, basket e pallavolo, e SoccerNet‑Tracking, costruito a partire da trasmissioni TV reali con zoom delle telecamere, sfocatura da movimento e occlusioni frequenti. In generale, DeCon‑Net ha rilevato sia giocatori sia palle con maggiore precisione rispetto a sistemi ampiamente usati basati su Faster R‑CNN, DETR e metodi recenti orientati al tracciamento. I miglioramenti sono stati particolarmente evidenti per la palla, con l’accuratezza in aumento di oltre il 40% rispetto a solide baseline. Il sistema si è comportato meglio anche quando è stato applicato a un dataset diverso da quello su cui era stato addestrato, suggerendo che il design a caratteristiche divise cattura segnali più generali e riutilizzabili sulle scene sportive.

Figure 2
Figure 2.

Cosa significa questo per il futuro dell’analisi sportiva

In termini pratici, l’articolo mostra che molti sistemi di IA attuali “vedono” il calcio in modo semplificato: raggruppano i giocatori della stessa squadra e quasi ignorano la palla quando l’azione si fa concitata. DeCon‑Net contrasta questo costringendo la rete ad apprendere separatamente chi appartiene a quale squadra e chi è quale individuo, dando al contempo maggiore attenzione agli oggetti minuti facilmente trascurabili. Il risultato è una mappa più precisa e affidabile di ogni giocatore e della palla sul campo, fotogramma dopo fotogramma. Questa base può alimentare analisi tattiche migliori per gli allenatori, grafica più ricca per i broadcaster e statistiche più accurate per i tifosi, avvicinandoci a una comprensione automatica del gioco veramente intelligente.

Citazione: Ouyang, Q., Du, T. & Li, Q. DeCon-Net: decoupled hierarchical contrast for soccer object detection. Sci Rep 16, 7571 (2026). https://doi.org/10.1038/s41598-026-39084-4

Parole chiave: analisi video del calcio, rilevamento oggetti, analisi sportiva, visione artificiale, tracciamento della palla