Clear Sky Science · es

Evaluación de la calidad de la acción de un atleta basada en el desacoplamiento de la puntuación de calidad de una red neuronal de transferencia en escenarios deportivos complejos

2026-04-02 · Volver al índice

Por qué importa un juicio deportivo más inteligente

Desde el salto olímpico hasta las batallas de breakdance, muchos deportes dependen de jueces humanos para convertir movimientos intrincados en una única puntuación. Pero las actuaciones largas son desiguales: algunos momentos son espectaculares, otros son inestables o simplemente relleno. Este estudio explora cómo la inteligencia artificial puede analizar vídeos completos de actuaciones complejas, seleccionar los momentos realmente importantes y producir puntuaciones más consistentes y detalladas que puedan apoyar a jueces, entrenadores, médicos y aprendices cotidianos.

Ver el espectáculo completo, no solo los mejores momentos

Los sistemas informáticos tradicionales que califican el rendimiento deportivo suelen tratar un vídeo completo como si cada segundo tuviera la misma importancia. Esa suposición falla en eventos reales. En el breakdance, por ejemplo, los pasos iniciales que siguen la música importan menos que los movimientos difíciles en el suelo, los freezes o los giros de potencia que aparecen más adelante. Los métodos existentes con frecuencia mezclan todo, lo que oculta tanto las jugadas brillantes como los errores críticos. Los autores plantean esto como un problema general en vídeos largos de habilidades: la calidad varía a lo largo del tiempo, y la evidencia positiva y negativa puede coexistir en la misma actuación. Su objetivo es construir un sistema que separe los momentos clave del movimiento de fondo, facilitando la comparación de qué tan bien han actuado realmente dos personas.

Figure 1. La IA separa movimiento y postura en vídeos largos de deportes y destrezas para ofrecer una puntuación de calidad global.

Dos maneras de mirar la misma actuación

El modelo propuesto observa cada vídeo a través de dos lentes separadas. Una vía “dinámica” se centra en el movimiento a lo largo del tiempo usando clips cortos, captando ritmo, fluidez y continuidad. La otra vía “estática” examina fotogramas individuales, percibiendo la postura, el control corporal y pequeños errores de forma que pueden aparecer solo por un instante. Es crucial que estas vías no se mezclen al inicio. Cada una primero aprende su propia visión de la actuación, lo que ayuda a evitar que errores breves de postura queden ahogados por secuencias largas y suaves, o viceversa. Solo después de que cada vía ha formado sus propias características sensibles a la calidad se combinan para estimar una puntuación global.

Separando movimientos fuertes de los débiles

En el núcleo del sistema hay un módulo de “desacoplamiento de puntuación” que separa explícitamente segmentos de vídeo que parecen evidencia sólida de habilidad de aquellos que sugieren una ejecución más débil o defectuosa. Inspirado en redes modernas basadas en atención, el modelo aprende dos “prototipos” internos: uno que busca momentos de alta calidad y otro que se centra en los de baja calidad. A medida que se procesa el vídeo, cada prototipo asigna pesos distintos a los segmentos, produciendo dos resúmenes complementarios: uno construido a partir de los clips que parecen mejores y otro a partir de los peores o menos útiles. También se mantiene una media simple en el tiempo como línea base neutra. Reglas de entrenamiento especiales empujan a las vistas de alta y baja calidad a discrepar de maneras útiles y a concentrarse en partes diferentes del vídeo, en lugar de colapsar sobre los mismos fotogramas obvios.

Figure 2. La IA resalta los mejores y peores momentos de una actuación larga antes de combinarlos en una única puntuación de calidad.

Aprender a ordenar actuaciones observando pares

En lugar de depender de puntuaciones numéricas precisas de expertos humanos, el sistema se entrena principalmente con comparaciones por pares: dado dos vídeos, ¿qué intérprete mostró mejor habilidad en conjunto? Para cada par, el modelo predice puntuaciones para sus ramas de alta calidad, baja calidad y media, y se penaliza si se equivoca en el orden o si las ramas separadas no resultan más discriminativas que la media simple. Términos adicionales de entrenamiento fomentan que las vistas “buenas” y “malas” enfatizen segmentos temporales distintos. Una vez completado el entrenamiento, el sistema puede analizar un nuevo vídeo individual y ofrecer una puntuación de calidad estable, sin necesitar ver un vídeo de referencia junto a él.

De las batallas de breakdance a la cirugía y las habilidades cotidianas

Para probar su enfoque, los autores construyeron un nuevo conjunto de datos de batallas de breakdance de clase mundial y también evaluaron el método en dos colecciones existentes de vídeos largos de habilidades: tareas cotidianas como dibujar, cocinar y anudar una corbata, y actividades quirúrgicas y de motricidad fina. En estos entornos diversos, su modelo típicamente igualó o superó la precisión de los métodos líderes al decidir cuál de dos vídeos muestra mayor habilidad. Las visualizaciones de sus mapas de atención internos muestran que las ramas de alta calidad tienden a activarse alrededor de movimientos bien controlados y técnicamente exigentes, mientras que las ramas de baja calidad enfatizan transiciones torpes o acciones incompletas. Para el lector no experto, la conclusión es que este sistema enseña a los ordenadores no solo a reconocer qué acción ocurre, sino cuán bien se realiza, separando cuidadosamente las mejores y peores partes de una actuación antes de combinarlas en una puntuación final e interpretable.

Cita: Gao, L., Ma, Y., Bi, S. et al. Athlete action quality assessment based on transfer neural network quality score decoupling in complex sports scenarios. Sci Rep 16, 15795 (2026). https://doi.org/10.1038/s41598-026-43987-7

Palabras clave: evaluación de la calidad de la acción, análisis de vídeo deportivo, breakdance, modelos basados en atención, evaluación de habilidades