Clear Sky Science · it

Applicazione di LSTM-CNN nel riconoscimento delle azioni nello sci con tecnologia di intelligenza artificiale

· Torna all'indice

Allenamento più intelligente sulle piste

Scialpinisti, allenatori e appassionati si rivolgono sempre più spesso ai video per comprendere cosa accade in una curva o in un salto in frazioni di secondo. Tuttavia, nel mondo reale spruzzi di neve, alberi, luce variabile e piste affollate rendono difficile per i computer riconoscere con affidabilità cosa stia facendo uno sciatore. Questo articolo presenta un nuovo sistema di intelligenza artificiale in grado di leggere automaticamente la tecnica sciistica da video comuni con alta accuratezza, anche in condizioni esterne complesse. Tale tecnologia potrebbe un giorno alimentare strumenti di coaching in tempo reale, allenamenti più sicuri e analisi delle prestazioni più approfondite per gli sport invernali.

Perché insegnare ai computer a vedere lo sci è difficile

Lo sci è uno sport complesso da analizzare perché i movimenti sono rapidi, tridimensionali e spesso parzialmente nascosti da abbigliamento ingombrante o dal corpo dello stesso sciatore. Allo stesso tempo, le scene all’aperto sono piene di distrazioni: alberi, dossi di neve, forti riflessi e condizioni meteorologiche variabili. I sistemi video precedenti si sono concentrati troppo sull’aspetto statico dei singoli fotogrammi o non sono riusciti a tracciare correttamente l’evoluzione dei movimenti nel tempo. Di conseguenza, tendevano a confondere azioni simili, faticavano in condizioni di scarsa visibilità e non erano robusti quando comparivano nuovi atleti o nuove condizioni della pista.

Figure 1
Figura 1.

Una visione a due occhi del movimento nello sci

Gli autori progettano un modello che osserva i video di sci in due modi complementari contemporaneamente. Un “occhio” guarda i fotogrammi a colori regolari, catturando l’aspetto dello sciatore e dell’ambiente. L’altro “occhio” si concentra sul movimento tracciando come i pixel si spostano da un fotogramma al successivo, una tecnica nota come flusso ottico. Da questo campo di movimento il sistema costruisce una mappa di salienza che evidenzia le regioni realmente attive—gli sci, le gambe e il busto—attenuando invece lo sfondo statico come alberi e cumuli di neve. Entrambi i flussi passano attraverso una rete convoluzionale 3D che apprende pattern nello spazio e in brevi intervalli temporali, distillando ogni segmento video in firme compatte di aspetto e movimento.

Fondere ciò che vede e come si muove

Invece di limitarsi a sovrapporre o mediare i due flussi informativi, il modello impara quanto peso assegnare a ciascuno per ogni clip analizzata. Per alcune manovre, come lo spazzaneve dove gli sci formano una sagoma distintiva, gli indizi di aspetto contano di più. Per curve parallele fluide, il ritmo e la direzione del movimento sono più rivelatori. Un modulo di fusione apprendibile regola automaticamente questi contributi, normalizzando i due set di caratteristiche e combinandoli tramite pesi addestrati che sommano sempre a uno. Questa miscela adattiva permette al sistema di concentrarsi sulle evidenze visive più informative per l’azione corrente, rendendo il riconoscimento più accurato e affidabile attraverso stili di sci e scene diverse.

Figure 2
Figura 2.

Leggere l’intera storia di ogni curva

Riconoscere un’azione nello sci non riguarda solo una singola posa; riguarda come una sequenza si svolge dall’inizio alla fine. Per catturare questo, le caratteristiche fuse vengono alimentate in una rete ricorrente bidirezionale che guarda sia avanti sia indietro nel tempo. Invece di fare affidamento solo sui fotogrammi passati, il modello usa anche indizi dai fotogrammi successivi per capire cosa sta facendo lo sciatore. Questo lo aiuta a distinguere azioni che possono apparire simili in un istante ma differiscono per tempismo e coordinazione. I test sul dataset SkiTB—una grande raccolta di video sciistici real-world—mostrano che il nuovo sistema supera diversi metodi consolidati, raggiungendo circa il 93% di precisione e F1-score. Mantiene un’accuratezza superiore all’85% anche quando valutato in diverse condizioni meteorologiche, con atleti non visti e video con rumore artificiale.

Cosa significa per sciatori e tecnologia sportiva

Combinando una percezione del movimento mirata, una fusione adattiva degli indizi visivi e una lettura temporale del movimento, il modello proposto può dire con affidabilità se uno sciatore sta curvando, frenando o saltando, anche in ambienti affollati e variabili. Per i non specialisti, il punto chiave è che il sistema non si limita a contare i fotogrammi; impara dove guardare, cosa è più importante e come si svolge un intero ciclo d’azione. Questo approccio potrebbe costituire la spina dorsale di assistenti intelligenti per l’allenamento che forniscono feedback oggettivi, aiutano a prevenire infortuni individuando schemi rischiosi e supportano analisi di broadcasting più ricche. Sebbene gli autori osservino che condizioni meteorologiche estreme e trick aerei molto brevi rimangano sfide, il loro framework offre una base robusta per futuri strumenti di coaching intelligenti nello sci e, potenzialmente, in molti altri sport all’aperto.

Citazione: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2

Parole chiave: riconoscimento delle azioni nello sci, analisi video sportivi, deep learning, flusso ottico, prestazioni degli atleti