Clear Sky Science · zh

基于姿态的沉浸式交互用于数字敦煌舞蹈遗产

2026-04-09 · 返回目录

与古代壁画共舞

敦煌舞源自中国莫高窟壁画中流动翩跹的人像，既具有视觉上的惊艳，又在技术上充满挑战。对于参观者和学习者来说，从欣赏墙上这些绘制的人体到在现实中再现其流畅曲线并不容易。本文介绍了一种基于摄像头的交互系统，让任何拥有笔记本电脑的人都能进入这些壁画姿势，实时获得与理想形态的接近程度的指导，并能立即将他们的精彩瞬间生成敦煌风格的数字海报。

从洞窟绘画到活体动作

像舞蹈这样的非物质文化遗产比雕像或壁画更难保存，因为它存在于身体之中，而非石头。尽管敦煌洞窟已被以精细的视觉细节扫描和存档，大多数数字项目仍然只是让人观看，而非行动。作者认为，要真正让这一传统延续，学习者需要通过身体实践——尝试姿势、即时调整并在肌肉中感受风格。他们着手构建一个正好能做到这一点的系统，仅使用消费级硬件，如普通网络摄像头和笔记本电脑，从而使博物馆、教室和文化中心能在无需昂贵设备的情况下采用该系统。

教计算机“读懂”姿势

为训练系统，团队收集了23段由专业与半专业敦煌舞者表演五个经典姿势的视频。从这些视频中，他们提取了约1,230帧静态图像，涵盖每个姿势的正确与不完美版本。包括舞蹈专家和非专家在内的人类标注者根据诸如手臂高度、躯干弯曲度与对称性等清晰标准，将每帧标注为“好”或“不好”，标注者之间达成了较高一致性。谷歌的一款轻量工具MediaPipe随后将每位舞者的图像转换为33个关键身体点——如肩膀、臀部、肘部和手腕——以简单的二维坐标表示。这把丰富的图像信息转化为精简的姿态数值描述。

系统如何评判你的动作

在这些骨架点的基础上，研究者比较了八种经典的机器学习方法，以确定哪种能最好地区分好坏姿势。研究并未采用需要大量数据和强大显卡的深度神经网络，而是侧重于能在日常机器上快速运行的算法。一种称为随机森林（Random Forest）的方法脱颖而出，它通过组合许多简单决策树，能以约98.5%的正确率对姿势质量进行分类，并且很少漏判真正正确的姿势。它还完成了更困难的任务：不仅识别质量，还能辨认用户尝试的是哪五个姿势之一，即使某些站姿非常相似，准确率仍超过97%。

从动作到个人敦煌海报

模型训练完成后被嵌入到一个包含四个主要阶段的交互程序中。首先，用户选择目标姿势和可选的视觉效果，然后站在摄像头前。系统以约20–25帧每秒实时跟踪他们的骨架，持续判断他们正在做哪个姿势以及姿势的好坏。当用户稳固保持正确姿势数秒时，系统会捕捉一帧，将人物从背景中抠出，并将其合成到敦煌风格的场景中——配以壁画式的色彩、光环和与关节点对齐的飘带。用户可以查看并下载这张竖版海报，将他们的现场动作与古代洞窟艺术的视觉语言结合起来。

这对传统延续的重要性

对非专业人士来说，关键结论是：保存舞蹈传统不仅仅是录制视频，而是要邀请人们亲自将这些动作体现出来。该工作表明，相对简单、透明的算法和适度的数据集就能提供快速且准确的反馈，足以在学习中提供及时引导。通过将正确姿势转化为可分享的敦煌风格海报，系统把练习变成一种有趣的文化体验，而非一次考试。作者将此视为迈向“表演性保存”的一步：借助交互技术，使遗产不仅被观看和存档，也被再现和感受，帮助古老壁画中的人物通过当代学习者的身体继续“舞动”。

引用: Fu, Q., Zhou, Y. & Ding, X. Pose-based embodied interaction for digital Dunhuang dance heritage. npj Herit. Sci. 14, 223 (2026). https://doi.org/10.1038/s40494-026-02470-2

关键词: 敦煌舞, 非物质文化遗产, 姿态识别, 互动学习, 文化遗产技术