Clear Sky Science · zh

在资源受限设备上实现动态卡纳达手语识别

2026-02-26 · 返回目录

弥合对话鸿沟

对于卡纳塔克邦的许多聋人来说，日常对话依赖卡纳达手语（KSL）。然而大多数手机和应用只理解口语和书面语言，使得使用KSL的人缺乏他人习以为常的数字工具。本研究通过构建一个能够从视频中读取短时KSL手势并能在普通智能手机上高效运行的系统来填补这一空白，从而为手语者与非手语者之间更快速、更私密的交流打开了可能。

构建面向现实世界的手语库

由于不存在公开的KSL词汇视频数据库，研究人员从头开始创建了一个。他们与一所聋童学校的教师以及来自卡纳塔克邦的38名志愿者合作，录制了两千多段KSL手语视频。团队聚焦于33个日常词汇，分为四个主题：水果、月份、一周的日子以及一天中的时段或季节。每个词进行了多次拍摄，速度不同、地点各异、光照条件不同。这样的多样性使系统能够应对生活中混乱且不可预测的情形，而不是只在理想化的实验室条件下工作。

教计算机“看”运动

系统并不将完整视频帧输入笨重的视觉模型，而是先将每帧简化为表示上半身和手部的关键点集合。研究人员使用谷歌的 MediaPipe Holistic 工具包跟踪59个标志点——例如肩膀、肘部、手腕和手指关节——并记录它们随时间变化的三维位置。这样就生成了每个手势序列的紧凑“骨架”：每段视频75帧，每帧包含177个数值特征。为增强系统对噪声的鲁棒性，他们通过精心的视频增强扩展数据集，加入小幅摄像机倾斜、光照变化、人工噪点、运动加速和减速等。这些步骤帮助模型学习手势的本质，而不是记住特定的背景或录制条件。

三种读取动态手势的方法

在这种更简洁的运动表示下，团队比较了三种用于识别每个手语词的深度学习方法。第一种是 LSTM，一种设计用于逐帧跟踪序列、在记住重要细节的同时忘掉干扰的网络。第二种是 BiLSTM，从过去到未来和从未来到过去两个方向观察手势，为运动提供更丰富的视角。第三种是仅编码器的 Transformer，它通过注意力机制将所有帧相互关联起来：不是严格按顺序扫描，而是学习手势中哪些时刻彼此最相关。三种模型都使用相同的数据划分为训练、验证和测试集，并被调优以仅从运动模式对33个词进行分类。

将强大模型压缩到微型设备

高精度模型通常对中端手机等资源受限设备来说过于庞大和缓慢。为此，作者采用了基于 TinyML 的优化并使用 TensorFlow Lite。通过降低内部权重的数值精度（称为训练后量化），他们将每个训练好的模型转换为更小的版本。尝试了几种方案，包括动态范围量化、float16 以及全整数量化变体。这些精简后的模型被嵌入到基于 Flutter 的 Android 应用中。由于目前在 Flutter 中无法直接在手机上运行 MediaPipe Holistic，研究团队使用一个外部的轻量级服务器提取关键点，并仅将紧凑的运动数据发送回应用，应用在设备端执行最终识别。

手中的快速、准确的手语识别

尽管为了速度和尺寸进行了裁剪，表现最好的模型仍然保持了令人印象深刻的性能：在33个KSL词上的测试准确率约为94%–96%。动态量化的 BiLSTM 达到最高准确率 95.71%，而量化后的 Transformer 模型则提供了最快的手机端预测——每个手势约16毫秒，模型大小仅略超1 MB。LSTM 在大小、速度和准确率之间取得了中间折衷。三者在 CPU 和内存使用上都很适中，表明实时的 KSL 识别即使在日常智能手机上、无需持续联网或昂贵硬件也能实用。

这对日常生活意味着什么

简言之，这项工作表明有可能赋予普通智能手机从短视频中“理解”一组核心 KSL 词的能力，做到可靠且快速。通过构建专门的 KSL 视频数据集、将手势提炼为身体与手部骨架，并将现代序列模型压缩以在边缘设备上高效运行，研究人员为面向区域语言的可及手语识别技术提供了蓝图。尽管当前系统仅处理33个独立词并仍依赖于用于特征提取的小型服务器，但它标志着朝着更丰富、完全在设备上运行的工具迈出的实质性一步，这些工具可能帮助数十万名 KSL 用户更顺畅地与听力人群交流。

引用: V, U., K S, N., K S, N. et al. Dynamic Kannada Sign Language Recognition on Resource Constrained Devices. Sci Rep 16, 11186 (2026). https://doi.org/10.1038/s41598-026-40181-7

关键词: 卡纳达手语, 移动手语识别, TinyML, 手势识别, 辅助技术