Clear Sky Science · es

Aplicación de LSTM-CNN en el reconocimiento de acciones de esquí bajo tecnología de inteligencia artificial

· Volver al índice

Entrenamiento más inteligente en las pistas

Esquiadores, entrenadores y aficionados recurren cada vez más al vídeo para entender lo que ocurre en un giro o salto de fracción de segundo. Sin embargo, en el mundo real, las pulverizaciones de nieve, los árboles, la luz cambiante y las pistas concurridas dificultan que los ordenadores reconozcan con fiabilidad lo que hace un esquiador. Este artículo presenta un nuevo sistema de inteligencia artificial que puede leer automáticamente la técnica de esquí a partir de vídeos ordinarios con alta precisión, incluso en condiciones exteriores complicadas. Esta tecnología podría, en el futuro, impulsar herramientas de entrenamiento en tiempo real, entrenamientos más seguros y análisis de rendimiento más profundos para los deportes de invierno.

Por qué es difícil enseñar a los ordenadores a ver el esquí

El esquí es un deporte difícil de analizar porque los movimientos son rápidos, tridimensionales y a menudo están parcialmente ocultos por ropa voluminosa o por el propio cuerpo del esquiador. Al mismo tiempo, las escenas al aire libre están llenas de distracciones: árboles, montículos de nieve, fuertes reflejos y clima variable. Los sistemas previos basados en vídeo o bien se centraban en exceso en la apariencia estática de fotogramas individuales o no seguían correctamente cómo se desarrolla el movimiento a lo largo del tiempo. Como resultado, tendían a confundir acciones similares, tenían problemas con la mala visibilidad y no eran robustos frente a nuevos atletas o nuevas condiciones de la pista.

Figure 1
Figure 1.

Una visión doble del movimiento del esquí

Los autores diseñan un modelo que observa los vídeos de esquí de dos maneras complementarias a la vez. Un “ojo” mira los fotogramas de color habituales, captando cómo se ven el esquiador y el entorno. El otro “ojo” se centra en el movimiento, trazando cómo los píxeles se desplazan de un fotograma al siguiente, una técnica conocida como flujo óptico. A partir de este campo de movimiento, el sistema construye un mapa de saliencia que resalta las regiones realmente activas —los esquís, las piernas y el torso— mientras atenúa el fondo estático como árboles y taludes de nieve. Ambas corrientes pasan por una red convolucional 3D que aprende patrones en el espacio y en cortos intervalos temporales, destilando cada segmento de vídeo en firmas compactas de apariencia y movimiento.

Combinando lo que ve y cómo se mueve

En lugar de simplemente apilar o promediar las dos corrientes de información, el modelo aprende cuánto peso asignar a cada una para cada clip que analiza. Para algunas maniobras, como la cuña de frenado en la que los esquís adoptan una forma distintiva, las pistas de apariencia importan más. Para giros paralelos suaves, el ritmo y la dirección del movimiento son más reveladores. Un módulo de fusión aprendible ajusta automáticamente estas contribuciones, normalizando los dos conjuntos de características y combinándolos mediante pesos entrenados que siempre suman uno. Esta mezcla adaptativa permite al sistema centrarse en la evidencia visual más informativa para la acción actual, haciendo que el reconocimiento sea más preciso y fiable a través de estilos y escenarios de esquí diversos.

Figure 2
Figure 2.

Interpretando la historia completa de cada giro

Reconocer una acción en el esquí no se trata solo de una pose aislada; se trata de cómo una secuencia se desarrolla de principio a fin. Para capturar esto, las características fusionadas se introducen en una red recurrente bidireccional que mira tanto hacia adelante como hacia atrás en el tiempo. En lugar de confiar únicamente en fotogramas pasados, el modelo también usa indicios de fotogramas futuros para entender lo que hace el esquiador. Esto le ayuda a distinguir entre acciones que pueden parecer similares en una instantánea pero que difieren en sincronización y coordinación. Las pruebas en el conjunto de datos SkiTB —una gran colección de vídeos de esquí del mundo real— muestran que el nuevo sistema supera a varios métodos establecidos, alcanzando alrededor del 93% de precisión y F1. Mantiene más del 85% de exactitud incluso cuando se evalúa en distintas condiciones meteorológicas, atletas no vistos y vídeos con ruido artificial.

Qué significa esto para esquiadores y tecnología deportiva

Al combinar percepción de movimiento enfocada, fusión adaptativa de pistas visuales y una lectura temporal del movimiento, el modelo propuesto puede decir con fiabilidad si un esquiador está girando, frenando o saltando, incluso en entornos desordenados y cambiantes. Para los no especialistas, la conclusión clave es que el sistema no se limita a contar fotogramas; aprende dónde mirar, qué es lo más relevante y cómo se desarrolla un ciclo de acción completo. Este enfoque podría formar la columna vertebral de asistentes inteligentes de entrenamiento que proporcionen retroalimentación objetiva, ayuden a prevenir lesiones detectando patrones de riesgo y soporten análisis de retransmisión más ricos. Si bien los autores señalan que condiciones meteorológicas extremas y trucos aéreos muy breves siguen siendo un reto, su marco ofrece una base robusta para futuras herramientas de entrenamiento inteligente en esquí y, potencialmente, en muchos otros deportes al aire libre.

Cita: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2

Palabras clave: reconocimiento de acciones de esquí, análisis de vídeo deportivo, aprendizaje profundo, flujo óptico, rendimiento de los atletas