Clear Sky Science · ru
Применение LSTM-CNN для распознавания лыжных действий в условиях технологий искусственного интеллекта
Более умечное наставничество на склонах
Лыжники, тренеры и болельщики всё чаще обращаются к видео, чтобы понять, что происходит в долю секунды при резком карвинге или прыжке. Однако в реальных условиях снежные фонтанчики, деревья, меняющееся освещение и многолюдные склоны затрудняют компьютерам надёжное распознавание действий лыжника. В этой статье представлена новая система искусственного интеллекта, которая умеет автоматически считывать технику катания по обычным видеозаписям с высокой точностью, даже в «грязных» уличных условиях. Такая технология в будущем может обеспечить инструменты для обучения в реальном времени, более безопасные тренировки и более глубокий анализ выступлений в зимних видах спорта.
Почему научить компьютеры «видеть» лыжный спорт трудно
Анализ лыжного спорта сложен, потому что движения быстрые, трёхмерные и часто частично скрыты объёмной одеждой или самим телом спортсмена. Кроме того, на открытом воздухе полно отвлекающих объектов: деревья, сугробы, сильные блики и изменчивая погода. Ранние системы, основанные на видео, либо уделяли слишком много внимания статичной картинке в одном кадре, либо не умели корректно отслеживать развитие движения во времени. В результате они склонны были путать похожие действия, работать плохо при плохой видимости и терять надёжность при появлении новых спортсменов или изменении условий на склоне.

Двуглазый взгляд на лыжное движение
Авторы разработали модель, которая одновременно наблюдает видео лыжного катания двумя дополняющими друг друга способами. Одно «глаз» смотрит на обычные цветные кадры, фиксируя внешний вид лыжника и окружения. Другое «глаз» сосредоточено на движении, отслеживая, как пиксели сдвигаются из кадра в кадр — приём, известный как оптический поток. На основе этого поля движения система строит карту значимости, выделяющую действительно активные области — лыжи, ноги и корпус — и приглушающую статический фон вроде деревьев и снежных насыпей. Обе информационные цепочки проходят через 3D-сверточную сеть, которая изучает закономерности в пространстве и коротких промежутках времени, сводя каждый сегмент видео к компактным характеристикам внешнего вида и движения.
Смешивание того, что видит, и того, как движется
Вместо простого наложения или усреднения двух потоков информации модель обучается определять вклад каждого из них для каждого анализируемого клипа. Для некоторых приёмов, например торможения плугом, когда лыжи образуют характерную форму, важнее признаки внешнего вида. Для плавных параллельных поворотов больше значат ритм и направление движения. Обучаемый модуль слияния автоматически настраивает эти вклады, нормируя два набора признаков и комбинируя их через обучаемые веса, которые в сумме всегда равны единице. Такая адаптивная смесь позволяет системе фокусироваться на тех визуальных доказательствах, которые наиболее информативны для текущего действия, повышая точность и надёжность распознавания при разнообразных стилях катания и условиях сцены.

Чтение полной истории каждого поворота
Распознавание действия в лыжном катании — это не только отдельная поза; это то, как последовательность развивается от начала до конца. Чтобы это захватить, объединённые признаки подаются в двунаправленную рекуррентную сеть, которая смотрит как вперёд, так и назад во времени. Вместо того чтобы опираться только на прошлые кадры, модель использует подсказки из будущих кадров, чтобы лучше понять, что делает лыжник. Это помогает отличать действия, которые в одном кадре могут выглядеть похоже, но различаются по темпу и координации. Тесты на наборе SkiTB — большой коллекции реалистичных видеозаписей лыжного катания — показали, что новая система превосходит несколько устоявшихся методов, достигая примерно 93% по точности и F1-мере. Она остаётся выше 85% точности даже при оценке в разных погодных условиях, на материалах с незнакомыми спортсменами и в видео с искусственным шумом.
Что это значит для лыжников и спортивных технологий
Комбинируя ориентированное восприятие движения, адаптивное объединение визуальных подсказок и временно-чувствительное чтение движения, предложенная модель надёжно определяет, поворачивает ли лыжник, тормозит или прыгает, даже в загромождённых и меняющихся условиях. Для неспециалистов главный вывод в том, что система не просто считает кадры; она учится, куда смотреть, что важнее, и как разворачивается полный цикл действия. Такой подход может стать основой интеллектуальных ассистентов для тренировок, дающих объективную обратную связь, помогать предотвращать травмы, выявляя рискованные паттерны, и поддерживать более глубокий анализ при трансляциях. Хотя авторы отмечают, что экстремальная погода и очень короткие воздушные трюки по-прежнему представляют сложность, их архитектура предлагает прочную основу для будущих умных инструментов коучинга в лыжном спорте и, возможно, во многих других уличных видах спорта.
Цитирование: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2
Ключевые слова: распознавание лыжных действий, анализ спортивного видео, глубокое обучение, оптический поток, результаты спортсмена