Clear Sky Science · pt

Aplicação de LSTM-CNN no reconhecimento de ações de esqui sob tecnologia de inteligência artificial

· Voltar ao índice

Treinamento mais inteligente nas pistas

Esquiadores, treinadores e fãs recorrem cada vez mais a vídeos para entender o que acontece em uma curva ou salto que dura frações de segundo. No entanto, no mundo real, salpicos de neve, árvores, variações de iluminação e pistas lotadas dificultam que os computadores reconheçam com confiabilidade as ações do esquiador. Este artigo apresenta um novo sistema de inteligência artificial capaz de ler automaticamente a técnica de esqui a partir de vídeos comuns com alta precisão, mesmo em condições externas adversas. Essa tecnologia pode, no futuro, alimentar ferramentas de treinamento em tempo real, tornar os treinos mais seguros e proporcionar análises de desempenho mais profundas para esportes de inverno.

Por que ensinar computadores a ver o esqui é difícil

O esqui é um esporte desafiador para analisar porque os movimentos são rápidos, tridimensionais e frequentemente parcialmente ocultos por roupas volumosas ou pelo próprio corpo do esquiador. Ao mesmo tempo, cenas externas estão cheias de distrações: árvores, montículos de neve, fortes reflexos e clima variável. Sistemas anteriores baseados em vídeo focavam demais na aparência estática de quadros isolados ou não acompanhavam corretamente como os movimentos se desenrolam ao longo do tempo. Como resultado, tendiam a confundir ações similares, tinham dificuldades em condições de baixa visibilidade e não eram robustos quando surgiam novos atletas ou novas condições de pista.

Figure 1
Figura 1.

Uma visão dupla do movimento no esqui

Os autores desenvolvem um modelo que observa vídeos de esqui de duas maneiras complementares ao mesmo tempo. Um “olho” analisa quadros coloridos regulares, capturando a aparência do esquiador e do entorno. O outro “olho” foca no movimento, rastreando como os pixels se deslocam de um quadro ao seguinte, uma técnica conhecida como fluxo óptico. A partir desse campo de movimento, o sistema constrói um mapa de saliência que destaca as regiões realmente ativas — os esquis, as pernas e o torso — enquanto reduz a importância do fundo estático, como árvores e barrancos de neve. Ambos os fluxos passam por uma rede convolucional 3D que aprende padrões no espaço e em curtos intervalos de tempo, destilando cada segmento de vídeo em assinaturas compactas de aparência e movimento.

Misturando o que vê e como se move

Em vez de simplesmente empilhar ou fazer a média dos dois fluxos de informação, o modelo aprende quanto peso atribuir a cada um para cada clipe que analisa. Para algumas manobras, como uma frenagem em cunha em que os esquis formam uma forma distintiva, as pistas de aparência importam mais. Para curvas paralelas suaves, o ritmo e a direção do movimento são mais elucidativos. Um módulo de fusão aprendível ajusta automaticamente essas contribuições, normalizando os dois conjuntos de características e combinando-os por meio de pesos treinados que sempre somam um. Essa mistura adaptativa permite que o sistema foque na evidência visual mais informativa para a ação atual, tornando o reconhecimento mais preciso e confiável frente a estilos de esqui e cenários variados.

Figure 2
Figura 2.

Lendo a história completa de cada curva

Reconhecer uma ação no esqui não se resume a uma única pose; trata-se de como uma sequência se desenvolve do início ao fim. Para capturar isso, as características fundidas são alimentadas em uma rede recorrente bidirecional que olha tanto para frente quanto para trás no tempo. Em vez de depender apenas dos quadros passados, o modelo também usa pistas dos quadros seguintes para entender o que o esquiador está fazendo. Isso o ajuda a distinguir entre ações que podem parecer semelhantes em um instantâneo, mas que diferem em tempo e coordenação. Testes no conjunto SkiTB — uma grande coleção de vídeos de esqui do mundo real — mostram que o novo sistema supera vários métodos estabelecidos, alcançando cerca de 93% de precisão e F1-score. Ele se mantém acima de 85% de acurácia mesmo quando avaliado em diferentes condições climáticas, atletas inéditos e vídeos com ruído artificial.

O que isso significa para esquiadores e tecnologia esportiva

Ao combinar percepção de movimento focada, fusão adaptativa de pistas visuais e uma leitura temporal do movimento, o modelo proposto pode identificar com confiabilidade se um esquiador está fazendo uma curva, freando ou saltando, mesmo em ambientes confusos e mutáveis. Para o público não especializado, a ideia principal é que o sistema não se limita a contar quadros; ele aprende onde olhar, o que mais importa e como um ciclo completo de ação se desenrola. Essa abordagem pode formar a espinha dorsal de assistentes de treinamento inteligentes que forneçam feedback objetivo, ajudem a prevenir lesões ao detectar padrões de risco e suportem análises mais ricas para transmissão. Embora os autores ressaltem que condições extremas e truques aéreos muito breves continuam sendo desafiadores, a estrutura oferece uma base robusta para futuras ferramentas de coaching inteligente no esqui e potencialmente em muitos outros esportes ao ar livre.

Citação: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2

Palavras-chave: reconhecimento de ações de esqui, análise de vídeo esportivo, aprendizado profundo, fluxo óptico, desempenho do atleta