Clear Sky Science · de

Ein multimodales spatiotemporales Faltungsnetz mit Aufmerksamkeitsmechanismus zur Erkennung ängstlichen Verhaltens von Athleten

2026-01-14 · Zurück zur Übersicht

Warum ängstliche Athleten zählen

Wer schon einmal bei einer wichtigen Prüfungsfrage versagt oder in einem Spiel einen offenen Korb verpasst hat, weiß, wie Nerven die Leistung sabotieren können. Für Leistungssportler ist dieses Problem noch gravierender: Angst kann Medaillen, Stipendien und Karrieren kosten. Die meisten Methoden zur Erfassung der Nervosität von Athleten basieren jedoch weiterhin auf nachträglichen Fragebögen und der Intuition eines Trainers. Diese Studie stellt ein objektives Echtzeitsystem vor, das Körper und Gesicht der Athleten beobachtet, ihre Physiologie misst und automatisch einschätzt, wie ängstlich sie während des Wettkampfs sind.

Die unsichtbaren Zeichen von Nervosität sichtbar machen

Die Forscher gehen von einer einfachen Idee aus: Angst zeigt sich gleichzeitig auf vielen Ebenen. Wenn Athleten besorgt sind, ändert sich ihr Herzrhythmus, die Handflächen schwitzen, die Haltung wird steif und winzige Gesichtsbewegungen verraten die Anspannung. Anstatt sich nur auf einen dieser Hinweise zu konzentrieren, kombiniert das Team mehrere Signale zugleich. Sie erfassen Herz‑ und Hautleitwertdaten mit tragbaren Sensoren, hochauflösende Videoaufnahmen von Gesicht und Ganzkörperbewegung sowie standardisierte psychologische Fragebögen, die vor und nach echten universitären Wettkämpfen ausgefüllt werden. Insgesamt steuern 68 Athleten aus vier Sportarten mehr als zweitausend kurze Clips bei, die jeweils anhand eines bekannten Angstfragebogens als ängstlich oder ruhig etikettiert sind.

Dem digitalen Coach beibringen, das Spiel zu lesen

Um diesen reichhaltigen Signalstrom in einen Angstwert zu übersetzen, entwerfen die Autoren einen Deep‑Learning‑„Coach“, der sich auf über die Zeit verlaufende Muster spezialisiert. Ihr Modell verwendet ein spatiotemporales Faltungsnetz — im Kern eine Reihe von Filtern, die sich nicht nur im Raum (Pixel, Körperpunkte, Sensorkanäle), sondern auch über Sekunden hinweg bewegen. So kann das System sowohl schnelle Aufflackern von Anspannung als auch allmähliche Stressaufbauten innerhalb eines 30‑sekündigen Spielabschnitts erkennen. Entscheidend ist, dass das Netzwerk jede Datenart — Physiologie, Gesichtsausdruck und Bewegung — zunächst auf eigenen Pfaden verarbeitet und erst dann kombiniert, sodass die Stärken eines Kanals Schwächen eines anderen ausgleichen können, etwa ein teilweise verdecktes Gesicht oder kurzzeitiges Sensorrauschen.

Das Modell dort fokussieren lassen, wo es zählt

Da nicht jeder Moment oder jedes Signal gleich informativ ist, ergänzen die Forscher das System um einen Aufmerksamkeitsmechanismus. Dieser Modellteil lernt, den Frames und Signalen höhere Bedeutung zuzuschreiben, die am besten zwischen Angst und Ruhe unterscheiden. Ein Beispiel: Ein Anstieg des Hautleitwerts gepaart mit einem kurzen Kieferverspannen und unruhigen Beinbewegungen kann mehr Gewicht erhalten als eine Phase gleichmäßiger Atmung und neutraler Haltung. Das Aufmerksamkeitsmodul lernt außerdem, wie sehr es jedem Datenstrom in Echtzeit vertrauen sollte, und verlagert den Schwerpunkt, falls etwa die physiologischen Daten klar sind, das Video jedoch verrauscht. Indem es seinen Fokus so anpasst, wird das System robuster gegenüber realen Bedingungen und besser darin, subtile, frühe Anzeichen von Nervosität zu erkennen.

Wie genau und praktikabel ist es?

Im Vergleich mit einer Reihe bestehender Methoden — darunter klassische Machine‑Learning‑Algorithmen, standardmäßige Videonetze und Transformer‑ähnliche Tiefmodelle — schneidet das neue System am besten ab. Es klassifiziert Angstlevel in etwa 95 % der Fälle korrekt und erzielt ein gutes Gleichgewicht aus Präzision und Rückruf (Recall). Die Autoren testen systematisch verschiedene Zeitfensterlängen und zeigen, dass rund 30 Sekunden Daten den besten Kompromiss bieten zwischen genügend Kontext, um eine Angstepisode zu sehen, und einer kurzen Verzögerung, die für Echtzeit‑Feedback akzeptabel ist. Selbst wenn ein Datentyp fehlt — etwa nur die Wearables aktiv sind — liefert das System noch vernünftige Ergebnisse, was darauf hindeutet, dass es mit unvollkommenen Feldbedingungen umgehen kann.

Was das für Athleten und Trainer bedeutet

Kurz gesagt zeigt die Studie, dass ein Computer lernen kann, Athletenangst nahezu in Echtzeit anhand einer Kombination aus Körpersignalen und Verhalten zu erkennen — zuverlässiger als frühere Werkzeuge. Anstatt sich ausschließlich darauf zu verlassen, wie ein Athlet nachträglich angibt, sich gefühlt zu haben, könnten Trainer und Sportpsychologen kontinuierliche, objektive Schätzungen der psychischen Belastung während Training und Wettkampf erhalten. Das ermöglicht rechtzeitige Atemübungen, Wechsel in der Aufstellung oder Pausen, bevor sich Angst in einen kompletten Leistungseinbruch verwandelt. Obwohl das System weiterhin mehrere Sensoren und leistungsfähige Hardware benötigt und mit strengen Datenschutzmaßnahmen eingesetzt werden muss, weist es in eine Zukunft, in der das Management der mentalen Seite des Sports ebenso messbar und datengetrieben ist wie die Verfolgung von Geschwindigkeit oder Herzfrequenz.

Zitation: Yang, F., Gong, F. A multimodal spatiotemporal convolutional network with attention mechanism for athlete anxiety behavior recognition. Sci Rep 16, 5237 (2026). https://doi.org/10.1038/s41598-026-36023-1

Schlüsselwörter: Athletenangst, Sportpsychologie, tragbare Sensoren, multimodales Deep Learning, Echtzeit‑Emotionsüberwachung