Clear Sky Science · es
DeCon-Net: contraste jerárquico desacoplado para la detección de objetos en el fútbol
Por qué identificar jugadores y el balón es más difícil de lo que parece
Las retransmisiones modernas de fútbol están llenas de gráficos, estadísticas y repeticiones instantáneas, todo impulsado por sistemas informáticos que primero deben responder a una pregunta aparentemente simple: ¿dónde están los jugadores y el balón en cada fotograma? Este artículo aborda por qué las herramientas de inteligencia artificial líderes hoy en día aún tienen problemas con esa tarea básica en partidos reales, y presenta un nuevo método, DeCon‑Net, que hace que la detección automática de jugadores y del balón sea mucho más fiable, especialmente en escenas caóticas y concurridas.

Tres problemas ocultos en los vídeos de fútbol
A primera vista, detectar jugadores y un balón parece sencillo: se mueven, tienen formas claras y destacan sobre el césped. Pero los autores muestran que los sistemas de visión por ordenador estándar sufren tres problemas entrelazados. Primero, los compañeros de equipo que llevan uniformes idénticos se vuelven casi indistinguibles para el algoritmo, cuyas descripciones internas «de características» colapsan en puntos casi idénticos. Segundo, en los forcejeos en grupo, los jugadores se solapan tanto que los detectores a menudo dibujan una gran caja delimitadora alrededor de varias personas en lugar de cajas separadas para cada individuo. Tercero, el balón es pequeño—a veces apenas unas decenas de píxeles—y su señal visual es tan débil que puede quedar ahogada por la textura del césped y el movimiento de los jugadores, provocando que el sistema lo pase por alto por completo.
Separar lo que la red aprende
DeCon‑Net aborda estos problemas cambiando cómo una red neuronal representa lo que ve en un fotograma. En lugar de permitir que el modelo aprenda una descripción combinada para cada objeto, los autores dividen esa descripción en dos partes complementarias. Una vía captura lo que comparten los jugadores del mismo equipo—como el color de la camiseta—mientras que la otra vía se centra en lo que hace único a cada individuo, como la pose corporal o la posición exacta. Un truco especial de entrenamiento invierte el gradiente para la vía «individual» cada vez que la red intenta usar información del equipo en esa vía, enseñándole efectivamente a ignorar el color del uniforme y concentrarse en señales específicas de la persona. Las dos vías se recombinan de forma adaptativa, de modo que el sistema puede apoyarse más en rasgos compartidos en escenas sencillas y más en rasgos individuales cuando los jugadores están amontonados.
Enseñar al modelo con comparaciones, no solo con etiquetas
Más allá de esta representación dividida, DeCon‑Net reformula el propio aprendizaje. El método añade un paso de entrenamiento «contrastivo» jerárquico que compara constantemente pares de objetos detectados. A los pares que ya son claramente distintos se les aplican ajustes suaves, mientras que a los pares que parecen confusamente similares—como dos compañeros hombro con hombro—se les entrena con más agresividad para separarlos en el espacio interno de la red. Esta estrategia de tres niveles comienza con distinciones fáciles, luego pasa a diferencias más sutiles dentro de un mismo equipo y, finalmente, a variaciones entre distintos partidos y condiciones de emisión. Para rescatar el balón diminuto de ser pasado por alto, el método también aumenta la influencia de los objetos muy pequeños durante el entrenamiento, haciendo que la señal del balón destaque en lugar de desvanecerse en el ruido de fondo.
De los benchmark de laboratorio a las retransmisiones deportivas reales
Los investigadores probaron DeCon‑Net en dos conjuntos de datos exigentes: SportsMOT, que incluye fútbol, baloncesto y voleibol, y SoccerNet‑Tracking, construido a partir de emisiones de TV reales con zooms de cámara, desenfoque por movimiento y oclusiones frecuentes. En todos los casos, DeCon‑Net detectó tanto jugadores como balones con más precisión que sistemas ampliamente usados basados en Faster R‑CNN, DETR y métodos recientes orientados al seguimiento. Las mejoras fueron especialmente notables para el balón, con un aumento de la precisión de más del 40 por ciento respecto a fuertes referencias. El sistema también se mantuvo mejor cuando se aplicó a un conjunto de datos distinto del que se entrenó, lo que sugiere que su diseño de características divididas captura señales más generales y reutilizables sobre escenas deportivas.

Qué significa esto para el futuro del análisis deportivo
En términos cotidianos, el artículo muestra que muchos sistemas de IA actuales «ven» el fútbol de forma simplificada: agrupan a los jugadores del mismo equipo y casi ignoran el balón cuando la acción se vuelve intensa. DeCon‑Net contrarresta esto obligando a la red a aprender por separado quién pertenece a cada equipo y quién es cada individuo, a la vez que presta atención adicional a objetos diminutos y fáciles de pasar por alto. El resultado es un mapa más preciso y fiable de cada jugador y del balón en el campo, fotograma a fotograma. Esa base puede impulsar un análisis táctico mejor para entrenadores, gráficos más ricos para retransmisiones y estadísticas más precisas para los aficionados, acercándonos a una comprensión verdaderamente inteligente y automatizada del juego.
Cita: Ouyang, Q., Du, T. & Li, Q. DeCon-Net: decoupled hierarchical contrast for soccer object detection. Sci Rep 16, 7571 (2026). https://doi.org/10.1038/s41598-026-39084-4
Palabras clave: análisis de vídeo de fútbol, detección de objetos, analítica deportiva, visión por ordenador, seguimiento del balón