Clear Sky Science · es

MoSA-Det: detección de objetos adaptativa al estado de movimiento para vídeos deportivos

2026-04-03 · Volver al índice

Mirada más nítida sobre el campo

Cuando ves un partido en directo por la televisión, parece sencillo para las cámaras y los gráficos seguir a cada jugador y a la pelota. Detrás de escena, sin embargo, los ordenadores tienen dificultades, sobre todo con la acción rápida. Este artículo presenta una nueva manera para que los algoritmos «vean» el deporte que sigue el movimiento acelerado y ofrece un seguimiento más limpio y fiable para usos como superposiciones de emisión, análisis táctico y entrenamiento.

Figure 1. Cómo la adaptación a la velocidad de movimiento ayuda a los ordenadores a seguir con mayor claridad a jugadores y pelota en vídeos deportivos.

Por qué la acción rápida confunde a los ordenadores

Los vídeos deportivos están llenos de sprints rápidos, pases largos y movimientos amplios de cámara. Para los sistemas de visión por ordenador eso crea dos problemas importantes. Primero, cuando los jugadores o la pelota se mueven con rapidez, aparecen borrosos, perdiendo bordes y texturas que los detectores necesitan. Los autores muestran que en estos casos las señales internas de la red se debilitan y se vuelven inestables, por lo que el sistema está menos seguro de lo que ve. Segundo, muchos métodos modernos de vídeo intentan mejorar las decisiones combinando información de varios fotogramas cercanos. Eso funciona bien si los objetos apenas se desplazan entre fotogramas, pero en deportes rápidos pueden saltar tanto que sus posiciones dejan de alinearse, de modo que añadir más fotogramas introduce ruido y reduce la precisión.

Un sistema que se adapta al movimiento

Los investigadores proponen MoSA-Det, un marco que cambia la forma de procesar cada región de una imagen según la velocidad de su movimiento. En lugar de tratar cada píxel por igual, el sistema primero estima un «estado» de movimiento para cada ubicación, agrupándolas en estática, lenta o rápida. Lo hace comparando características entre fotogramas consecutivos y analizando la fuerza con la que coinciden en áreas cercanas. Este mapa de movimiento guía luego dos módulos clave: uno que se centra en mejorar la nitidez de lo que se ve en un solo fotograma, y otro que decide cuánto confiar en la información de otros fotogramas a lo largo del tiempo.

Limpiar jugadores y pelotas borrosas

El primer módulo, llamado Módulo de Características Adaptativas Consciente del Movimiento, aborda el problema del desenfoque dentro de fotogramas individuales. Pasa cada región por varias ramas que examinan vecindarios de distinto tamaño, desde detalles muy locales hasta un área circundante más amplia. El mapa de movimiento indica a la red cómo mezclar estas vistas: las regiones lentas o inmóviles se apoyan más en vecindarios pequeños para preservar el detalle fino, mientras que las regiones rápidas se inclinan hacia vistas más amplias que pueden reunir información dispersa. Para las zonas más rápidas, como una pelota en vuelo, el módulo activa una rama especial que aprende a «doblar» su rejilla de muestreo para seguir mejor las formas distorsionadas, ayudando a recuperar señales útiles incluso bajo un desenfoque fuerte.

Figure 2. Cómo un detector inteligente trata de forma distinta el movimiento lento y rápido a lo largo del tiempo para evitar el desenfoque y la desalineación en vídeos deportivos.

Usar el tiempo solo cuando ayuda

El segundo módulo, el Módulo de Agregación Temporal Guiado por el Estado, decide cómo combinar información entre fotogramas sin permitir que la desalineación cause perjuicio. Usa el mapa de movimiento para ajustar los pesos de fotogramas pasados y futuros en cada ubicación. En regiones estáticas, mezcla varios fotogramas de forma bastante uniforme, lo que suaviza el ruido y estabiliza las detecciones. En regiones de movimiento rápido, concentra el peso en el fotograma actual y utiliza desplazamientos aprendidos para alinear aproximadamente fotogramas antiguos antes de mezclarlos, y aun así los combina con cautela. Una pequeña rama adicional también ajusta las cajas delimitadoras finales para corregir cómo el desenfoque puede desplazar el centro aparente de un objeto en movimiento.

Qué significan los resultados para la tecnología deportiva

Probado en dos grandes conjuntos de datos de vídeos deportivos de fútbol, baloncesto y voleibol, MoSA-Det supera de forma consistente a métodos existentes de alto nivel. Detecta jugadores y la pelota con mayor precisión, especialmente en escenas concurridas, con movimiento intenso y en umbrales de precisión más estrictos que exigen contornos muy precisos. Es importante que sigue siendo lo bastante rápido para emisiones en tiempo real. Para un público general, el mensaje principal es que este sistema enseña a los ordenadores a prestar atención de forma distinta al movimiento lento y al rápido en lugar de usar un enfoque único para todos, lo que conduce a un seguimiento más limpio y gráficos más fiables durante jugadas de alta velocidad.

Cita: Yang, L., Sun, W. & Ren, J. MoSA-Det: motion state adaptive object detection for sports videos. Sci Rep 16, 15969 (2026). https://doi.org/10.1038/s41598-026-43231-2

Palabras clave: detección en vídeos deportivos, seguimiento de objetos, desenfoque por movimiento, visión por ordenador, aprendizaje profundo