Clear Sky Science · de

Semantisch bewusstes selbstüberwachtes Lernen mittels progressiver Sub‑Action‑Regression zur Bewertung der Aktionsqualität

· Zurück zur Übersicht

Die Leistung durch eine neue Brille sehen

Wenn wir olympische Springer oder andere Spitzensportler beobachten, spüren wir instinktiv, wer besser abgeschnitten hat, doch diese Intuition in objektive Zahlen zu überführen ist schwierig. Heutige automatisierte Videosysteme können einer Aktion zwar eine Gesamt‑„Punktzahl“ zuweisen, erklären aber selten, warum ein Sprung gut oder schlecht war oder welcher Teil verbessert werden muss. Dieses Papier stellt eine neue Methode vor, mit der Computer komplexe Aktionen in Video aufschlüsseln, in verständliche Teile zerlegen und jeden Teil separat bewerten können — und damit Feedback liefern, das einem menschlichen Trainer näherkommt.

Figure 1
Figure 1.

Eine komplexe Bewegung in handhabbare Teile zerlegen

Viele aktuelle Werkzeuge zur Bewertung der Aktionsqualität behandeln einen kompletten Sprung oder eine Bewegung als einen einzigen Block und liefern nur eine Gesamtwertung. Das verschleiert entscheidende Details: Ein Springer kann den Absprung perfekt durchführen, aber den Wassereinstieg schlecht meistern, und eine einzelne Zahl kann das nicht offenlegen. Die Autoren gehen dieses Problem an, indem sie dem Computer beibringen, jedes Video in sinnvolle Phasen oder Sub‑Actions zu unterteilen — etwa Anfang, Absprung, Flug und Eintritt. Wichtig ist, dass diese Unterteilung automatisch erfolgt, ohne menschliche Markierungen, die angeben, wo eine Phase endet und die nächste beginnt. Ein unüberwachtes Clustering gruppiert benachbarte Frames, die sich über die Zeit ähnlich „verhalten“, und liefert so ein grobes, aber verlässliches Storyboard der Darbietung.

Das System sich selbst lehren lassen, was zählt

Sobald das Video in Phasen geteilt ist, muss das System verstehen, wie jede Phase bei guter oder schlechter Ausführung aussieht. Statt auf dichte, manuell erstellte Labels zu setzen, nutzen die Autoren selbstüberwachtes Lernen: Dem Modell werden viele Versionen derselben Sub‑Action gezeigt, bei denen bewusst Frame‑Abschnitte entfernt oder „maskiert“ wurden. Das System muss für den kompletten und den teilweise fehlenden Clip ähnliche interne Darstellungen erzeugen. Indem es lernt, diese künstlichen Lücken zu ignorieren, wird es robust gegenüber realen Problemen wie kurzzeitigen Verdeckungen, fehlenden Frames oder leicht ungenauen Phasengrenzen und lernt, sich auf die essentiellen Bewegungs‑ und Haltungs‑Muster zu konzentrieren, die die Qualität bestimmen.

Figure 2
Figure 2.

Von einer Gesamtpunktzahl zu vielen nützlichen Teilwerten

Echte Datensätze enthalten meist nur eine einzige Gesamtwertung für jeden Sprung, nicht separate Bewertungen für jede Phase. Um das zu umgehen, führen die Autoren eine progressive Strategie mit „Pseudo‑Teilwerten“ ein. Zunächst verschmelzen sie die Gesamtwertung mit den neu gelernten Merkmalen jeder Sub‑Action und trainieren kleine Netze, um eine vorläufige Punktzahl pro Phase vorherzusagen. Anschließend verfeinern sie diese Schätzungen, indem Information entlang der Sequenz fließt: Die Merkmale jeder Phase werden unter Verwendung der Bewertungen vorheriger Phasen aktualisiert, wodurch eine kleine Unsauberkeit beim Absprung ihren Einfluss auf Flug und Eintritt nachzeichnet. In einer zweiten Variante hat jede Phase Zugriff auf alle vorherigen Phasenbewertungen, wodurch langfristige Ursache‑Wirkungs‑Beziehungen innerhalb der Aktion modelliert werden. Abschließend kombiniert ein kompaktes Regressionsnetz die veredelten Phasenbewertungen zu einer Gesamtvorhersage, nun ohne die Gesamtwahrheit als Eingang zu benötigen.

Test auf echten Turmsprungwettkämpfen

Die Forschenden evaluierten ihr Rahmenwerk auf zwei anspruchsvollen Turmsprung‑Datensätzen, die bei großen internationalen Wettbewerben aufgezeichnet wurden. Diese Sammlungen liefern Gesamtwertungen von menschlichen Wertungsrichtern und in einigen Fällen grobe Zeitmarken der Phasen, aber keine phasenbezogenen Qualitätslabels. Die neue Methode erzielte eine state‑of‑the‑art Rangkorrelation — das heißt, ihre Rangordnung der Athleten stimmt gut mit der von Expertenrichtern überein — und verringerte zugleich numerische Fehler in den vorhergesagten Punktzahlen. Sorgfältige Ablations‑Tests zeigten, dass beide Hauptideen — selbstüberwachte Merkmalsverfeinerung und progressive Pseudo‑Teilwertmodellierung — erhebliche Verbesserungen beitragen. Bemerkenswert ist, dass die Verwendung automatischer Phasengrenzen fast so gut abschnitt wie die mühsam erstellten menschlichen Annotationen, was darauf hinweist, dass das System unempfindlich gegenüber unvollkommenen Segmentierungen ist.

Zahlen in aufschlussreiche Trainingshinweise übersetzen

Über die Genauigkeit hinaus macht dieser Ansatz die automatisierte Bewertung interpretierbarer. Indem jeder Phase eines Sprungs eine eigene Punktzahl zugewiesen wird, kann das System etwa hervorheben, dass zwei Springer ähnliche Absprünge und Flugphasen zeigen, sich aber beim Eintritt stark unterscheiden — etwa durch einen großen Wasserspritzer. Die Analyse zahlreicher Proben bestätigt, dass diese Phasenbewertungen dieselben Prioritäten wie menschliche Wertungsrichter widerspiegeln, wobei die Eintrittsphase oft am stärksten gewichtet wird. Praktisch kann die Methode Athleten und Trainern genau diejenige Phase einer Darbietung aufzeigen, die verbessert werden muss, und das bei vergleichsweise einfachen Trainingsdaten. Obwohl am Turmspringen demonstriert, ist das Konzept flexibel genug, auf andere mehrstufige Aufgaben angewendet zu werden — von chirurgischen Prozeduren bis zu Rehabilitationsübungen — wo das Verständnis, wie jeder Abschnitt zur Gesamtqualität beiträgt, entscheidend ist.

Zitation: Mazruei, M., Fazl-Ersi, E., Vahedian, A. et al. Semantic-aware self-supervised learning using progressive sub-action regression for action quality assessment. Sci Rep 16, 6670 (2026). https://doi.org/10.1038/s41598-026-36668-y

Schlüsselwörter: Bewertung der Aktionsqualität, Sportvideoanalyse, selbstüberwachtes Lernen, Bewertung menschlicher Bewegung, Tiefenlernen für Coaching