Clear Sky Science · zh

在人工智能技术下 LSTM-CNN 在滑雪动作识别中的应用

2026-03-02 · 返回目录

更智能的雪场指导

滑雪者、教练和观众日益依赖视频来理解一次瞬间 carve 或跳跃中发生的细节。然而在现实场景中，雪雾、树木、光照变化和拥挤的雪道都会让计算机难以稳定识别滑雪者的动作。本文提出了一种新的人工智能系统，能够从普通视频中自动读取滑雪技术并取得高精度识别，即使在复杂的户外环境下也能表现良好。这类技术未来可为实时训练工具、更安全的训练流程以及更深入的性能分析提供支持。

为什么教计算机“看懂”滑雪很难

滑雪是个难以分析的运动，动作速度快、具有三维特性，而且常被厚重服装或选手自身遮挡。同时，户外场景干扰多：树木、雪堆、强反光和多变天气都存在。现有基于视频的方法要么过分依赖单帧的静态外观，要么无法妥善追踪动作随时间的演变。因此它们容易混淆相似动作，在能见度低时表现不佳，并且在面对新运动员或新雪道条件时鲁棒性不足。

双视角观察滑雪动作

作者设计了一个同时以两种互补方式观察滑雪视频的模型。一个“视角”查看常规的彩色帧，捕捉滑雪者和周围环境的外观；另一个“视角”关注运动，通过追踪像素从一帧到下一帧的位移来刻画运动，这种技术称为光流。从该运动场中，系统构建出一个显著性图，突出真正活跃的区域——滑雪板、腿部和躯干——同时削弱诸如树木和雪堆等静态背景。两路信息流都通过一个 3D 卷积网络，学习空间和短时内的模式，将每段视频蒸馏为外观与运动的紧凑特征表征。

融合所见与所动

模型并不是简单地堆叠或平均两路信息，而是为每个分析片段学习分配权重。对于某些动作，例如形成特定形状的犁式刹车（plow brake），外观特征更为重要；而对于平行滑行的流畅转弯，运动的节奏与方向更具判别力。一个可学习的融合模块会自动调整这些贡献，对两组特征进行归一化并通过训练得到的权重（权重之和恒为 1）进行组合。这种自适应的混合使系统能够专注于对当前动作最有信息量的视觉证据，从而在多样的滑雪风格和场景中提高识别的准确性与可靠性。

读懂每一个转弯的完整故事

识别滑雪动作不仅仅依赖单个姿态，而是要理解一个动作从开始到结束如何展开。为此，融合后的特征被输入到一个双向递归网络中，该网络既向前也向后查看时间信息。模型不仅依赖过去的帧，还利用未来帧的提示来理解滑雪者的动作。这有助于区分那些在瞬间看起来相似但在时序和协调上不同的动作。在真实世界滑雪视频的大型数据集 SkiTB 上的测试表明，新系统击败了若干既有方法，达到大约 93% 的精确率和 F1 分数。即便在不同天气、未见过的运动员以及加入了人为噪声的视频上测试，其准确率仍保持在 85% 以上。

这对滑雪者与体育科技意味着什么

通过结合聚焦的运动感知、自适应的视觉线索融合以及时间感知的动作解读，所提出的模型能够在杂乱且变化的环境中可靠地判别滑雪者是在转弯、刹车还是跳跃。对非专业读者来说，关键结论是该系统不仅仅是“数帧数”；它学会了在哪里观察、哪些信息最重要，以及完整动作循环如何展开。这一方法可以作为智能训练助手的核心，提供客观反馈、通过识别危险模式帮助预防受伤，并支持更丰富的转播分析。作者也指出极端天气和非常短暂的空中动作仍具挑战性，但他们的框架为未来滑雪及其他多种户外运动的智能教练工具提供了稳健的基础。

引用: Zhang, W., Xu, L. & Wang, L. Application of LSTM-CNN in skiing action recognition under artificial intelligence technology. Sci Rep 16, 11547 (2026). https://doi.org/10.1038/s41598-026-42324-2

关键词: 滑雪动作识别, 体育视频分析, 深度学习, 光流, 运动员表现