Clear Sky Science · de

Anwendung von LSTM-CNN in der Erkennung von Skiaktionen unter Einsatz künstlicher Intelligenz

2026-03-02 · Zurück zur Übersicht

Intelligenteres Coaching auf der Piste

Ski‑fahrende, Trainer und Fans greifen zunehmend auf Videoaufnahmen zurück, um zu verstehen, was in einer Bruchteilssekunde beim Carven oder Springen geschieht. In der Praxis erschweren jedoch Schneespritzer, Bäume, wechselnde Lichtverhältnisse und volle Pisten die zuverlässige Erkennung von Ski‑Bewegungen durch Computer. Diese Arbeit stellt ein neues System der künstlichen Intelligenz vor, das mit hoher Genauigkeit die Skitechnik aus normalen Videos automatisch ausliest – selbst unter unruhigen Außenbedingungen. Solche Technik könnte eines Tages Echtzeit‑Coaching‑Werkzeuge, sichereres Training und aussagekräftigere Leistungsanalysen im Wintersport ermöglichen.

Warum es schwer ist, Computern Skifahren beizubringen

Skifahren ist schwierig zu analysieren, weil die Bewegungen schnell, dreidimensional und oft teilweise von voluminöser Kleidung oder dem eigenen Körper verdeckt sind. Gleichzeitig sind Außenaufnahmen voller Störfaktoren: Bäume, Schneehaufen, starke Spiegelungen und wechselhaftes Wetter. Frühere videobasierte Systeme konzentrierten sich entweder zu stark auf das statische Erscheinungsbild einzelner Frames oder konnten nicht hinreichend nachverfolgen, wie sich Bewegungen über die Zeit entfalten. Deshalb verwechselten sie ähnliche Aktionen, hatten bei schlechter Sicht Probleme und erwiesen sich als wenig robust bei neuen Athleten oder veränderten Pistenbedingungen.

Eine zweifache Sicht auf die Ski‑Bewegung

Die Autoren entwerfen ein Modell, das Ski‑Videos gleichzeitig auf zwei sich ergänzende Arten betrachtet. Ein „Auge“ sieht die normalen Farbframes und erfasst, wie Skifahrer und Umgebung aussehen. Das andere „Auge“ konzentriert sich auf Bewegung, indem es verfolgt, wie sich Pixel von einem Frame zum nächsten verschieben – eine Technik, die als optischer Fluss bekannt ist. Aus diesem Bewegungsfeld erzeugt das System eine Salienzkarten‑Darstellung, die die wirklich aktiven Bereiche hervorhebt – Skier, Beine und Rumpf – und statischen Hintergrund wie Bäume oder Schneewälle heruntergewichtet. Beide Ströme passieren ein 3D‑Faltungsnetzwerk, das Muster über Raum und kurze Zeitspannen lernt und jedes Videosegment in kompakte Signaturen von Erscheinungsbild und Bewegung destilliert.

Verschmelzung von dem, was es sieht, und wie es sich bewegt

Anstatt die beiden Informationsströme einfach zu stapeln oder zu mitteln, lernt das Modell für jeden analysierten Clip, wie viel Gewicht jedem von beiden beigemessen werden soll. Bei manchen Manövern, etwa dem Pflugbremsen, bei dem die Skier eine charakteristische Form bilden, sind Erscheinungsmerkmale wichtiger. Bei flüssigen parallelen Kurven sind Rhythmus und Bewegungsrichtung aussagekräftiger. Ein lernbares Fusionsmodul passt diese Beiträge automatisch an, normalisiert die beiden Merkmalsmengen und kombiniert sie über trainierte Gewichte, die stets eins ergeben. Diese adaptive Mischung ermöglicht es dem System, sich auf die jeweils informativsten visuellen Hinweise für die aktuelle Aktion zu konzentrieren und macht die Erkennung über verschiedene Stilrichtungen und Szenarien hinweg genauer und robuster.

Die vollständige Geschichte jeder Kurve lesen

Die Erkennung einer Skiaktion besteht nicht nur aus einer einzelnen Pose; es geht darum, wie sich eine Sequenz von Anfang bis Ende entfaltet. Um dies zu erfassen, werden die fusionierten Merkmale in ein bidirektionales rekurrentes Netzwerk eingespeist, das sowohl vorwärts als auch rückwärts in der Zeit schaut. Anstatt sich nur auf vergangene Frames zu stützen, nutzt das Modell auch Hinweise aus kommenden Frames, um zu verstehen, was der Skifahrer tut. Das hilft, Aktionen zu unterscheiden, die in einem Einzelbild ähnlich aussehen, sich aber in Timing und Koordination unterscheiden. Tests auf dem SkiTB‑Datensatz – einer großen Sammlung realer Ski‑Videos – zeigen, dass das neue System mehrere etablierte Methoden übertrifft und rund 93 % Präzision und F1‑Score erreicht. Selbst bei Bewertungen unter verschiedenen Wetterbedingungen, unbekannten Athleten und mit künstlichem Rauschen in den Videos bleibt die Genauigkeit über 85 %.

Was das für Skifahrer und Sporttechnologie bedeutet

Durch die Kombination fokussierter Bewegungswahrnehmung, adaptiver Verschmelzung visueller Hinweise und einer zeitbewussten Betrachtung von Bewegungsabläufen kann das vorgeschlagene Modell zuverlässig erkennen, ob ein Skifahrer dreht, bremst oder springt – selbst in unruhigen und sich verändernden Umgebungen. Für Nicht‑Spezialisten ist die Kernaussage, dass das System nicht einfach Frames zählt; es lernt, wo es hinschauen muss, was am wichtigsten ist und wie ein vollständiger Aktionszyklus abläuft. Dieser Ansatz könnte die Grundlage intelligenter Trainingsassistenten bilden, die objektives Feedback liefern, helfen, Verletzungen durch das Aufspüren riskanter Muster zu vermeiden, und reichhaltigere Analysen für Übertragungen unterstützen. Zwar bemerken die Autoren, dass extreme Wetterbedingungen und sehr kurze Luftsprünge weiterhin herausfordernd bleiben, doch ihr Rahmenwerk bietet eine robuste Basis für künftige smarte Coaching‑Werkzeuge im Skisport und möglicherweise vielen anderen Außensportarten.

Zitation: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2

Schlüsselwörter: Erkennung von Skiaktionen, Analyse von Sportvideos, Tiefes Lernen, Optischer Fluss, Leistung von Athleten