Clear Sky Science · es
MoSA-Det: detección de objetos adaptativa al estado de movimiento para vídeos deportivos
Mirada más nítida sobre el campo
Cuando ves un partido en directo por la televisión, parece sencillo para las cámaras y los gráficos seguir a cada jugador y a la pelota. Detrás de escena, sin embargo, los ordenadores tienen dificultades, sobre todo con la acción rápida. Este artículo presenta una nueva manera para que los algoritmos «vean» el deporte que sigue el movimiento acelerado y ofrece un seguimiento más limpio y fiable para usos como superposiciones de emisión, análisis táctico y entrenamiento.

Por qué la acción rápida confunde a los ordenadores
Los vídeos deportivos están llenos de sprints rápidos, pases largos y movimientos amplios de cámara. Para los sistemas de visión por ordenador eso crea dos problemas importantes. Primero, cuando los jugadores o la pelota se mueven con rapidez, aparecen borrosos, perdiendo bordes y texturas que los detectores necesitan. Los autores muestran que en estos casos las señales internas de la red se debilitan y se vuelven inestables, por lo que el sistema está menos seguro de lo que ve. Segundo, muchos métodos modernos de vídeo intentan mejorar las decisiones combinando información de varios fotogramas cercanos. Eso funciona bien si los objetos apenas se desplazan entre fotogramas, pero en deportes rápidos pueden saltar tanto que sus posiciones dejan de alinearse, de modo que añadir más fotogramas introduce ruido y reduce la precisión.
Un sistema que se adapta al movimiento
Los investigadores proponen MoSA-Det, un marco que cambia la forma de procesar cada región de una imagen según la velocidad de su movimiento. En lugar de tratar cada píxel por igual, el sistema primero estima un «estado» de movimiento para cada ubicación, agrupándolas en estática, lenta o rápida. Lo hace comparando características entre fotogramas consecutivos y analizando la fuerza con la que coinciden en áreas cercanas. Este mapa de movimiento guía luego dos módulos clave: uno que se centra en mejorar la nitidez de lo que se ve en un solo fotograma, y otro que decide cuánto confiar en la información de otros fotogramas a lo largo del tiempo.
Limpiar jugadores y pelotas borrosas
El primer módulo, llamado Módulo de Características Adaptativas Consciente del Movimiento, aborda el problema del desenfoque dentro de fotogramas individuales. Pasa cada región por varias ramas que examinan vecindarios de distinto tamaño, desde detalles muy locales hasta un área circundante más amplia. El mapa de movimiento indica a la red cómo mezclar estas vistas: las regiones lentas o inmóviles se apoyan más en vecindarios pequeños para preservar el detalle fino, mientras que las regiones rápidas se inclinan hacia vistas más amplias que pueden reunir información dispersa. Para las zonas más rápidas, como una pelota en vuelo, el módulo activa una rama especial que aprende a «doblar» su rejilla de muestreo para seguir mejor las formas distorsionadas, ayudando a recuperar señales útiles incluso bajo un desenfoque fuerte.

Usar el tiempo solo cuando ayuda
El segundo módulo, el Módulo de Agregación Temporal Guiado por el Estado, decide cómo combinar información entre fotogramas sin permitir que la desalineación cause perjuicio. Usa el mapa de movimiento para ajustar los pesos de fotogramas pasados y futuros en cada ubicación. En regiones estáticas, mezcla varios fotogramas de forma bastante uniforme, lo que suaviza el ruido y estabiliza las detecciones. En regiones de movimiento rápido, concentra el peso en el fotograma actual y utiliza desplazamientos aprendidos para alinear aproximadamente fotogramas antiguos antes de mezclarlos, y aun así los combina con cautela. Una pequeña rama adicional también ajusta las cajas delimitadoras finales para corregir cómo el desenfoque puede desplazar el centro aparente de un objeto en movimiento.
Qué significan los resultados para la tecnología deportiva
Probado en dos grandes conjuntos de datos de vídeos deportivos de fútbol, baloncesto y voleibol, MoSA-Det supera de forma consistente a métodos existentes de alto nivel. Detecta jugadores y la pelota con mayor precisión, especialmente en escenas concurridas, con movimiento intenso y en umbrales de precisión más estrictos que exigen contornos muy precisos. Es importante que sigue siendo lo bastante rápido para emisiones en tiempo real. Para un público general, el mensaje principal es que este sistema enseña a los ordenadores a prestar atención de forma distinta al movimiento lento y al rápido en lugar de usar un enfoque único para todos, lo que conduce a un seguimiento más limpio y gráficos más fiables durante jugadas de alta velocidad.
Cita: Yang, L., Sun, W. & Ren, J. MoSA-Det: motion state adaptive object detection for sports videos. Sci Rep 16, 15969 (2026). https://doi.org/10.1038/s41598-026-43231-2
Palabras clave: detección en vídeos deportivos, seguimiento de objetos, desenfoque por movimiento, visión por ordenador, aprendizaje profundo