Clear Sky Science · zh

一种可解释的混合 CNN–Transformer 模型，用于在边缘设备上通过自适应融合和知识蒸馏进行手语识别

2026-02-03 · 返回目录

为什么微型手语工具很重要

数十亿次日常交流依赖于手部动作、面部表情和身体语言，而非口语。然而，大多数手机、平板和公共设备仍无法理解手语，特别是在非英语国家。本文提出了 TinyMSLR，一种紧凑且可解释的手语识别系统，旨在在小型、低功耗设备上实时运行。其目标是将普通硬件变成负担得起且值得信赖的沟通辅助工具，惠及全球的聋人和听力障碍者。

将更多语言纳入对话

许多先进的手语识别系统都集中在单一语言上，通常是美国手语，并且只在高性能计算机上运行。这就排除了使用其他手语的人群以及位于计算资源有限地区的用户。作者通过构建一个由两种不同语言组成的共享测试集来弥补这一空白：德国手语的天气播报和一个大型中文手语集合。他们精心挑选了 20 个常见日常手势——例如“你好”“天气”“下雨”“高兴”“是”以及“谢谢”——这些手势在两种语言中均存在。通过将长视频修剪为只包含单个手势的短片，并在类别与签名者层面平衡样本数量，他们创建了一种公平且可重复的方法来评估模型在跨语言孤立手势识别方面的表现。

混合模型如何观察手与运动

TinyMSLR 结合了两种互补的视频观察方式。一条分支使用现代卷积网络（ConvNeXt‑Tiny），擅长捕捉细节，例如手指形状和细微纹理。另一条分支使用 Swin Transformer，这类较新的模型在跨空间与时间跟踪模式方面表现出色——例如若干帧内手、面部与上半身的运动轨迹。每个短视频剪辑被标准化为 32 帧、224×224 像素，经过轻度增强（如小幅旋转或亮度变化），然后并行送入两条分支。每条分支都输出一个 768 维的特征摘要；这两份摘要合起来同时捕捉到清晰的局部细节与更广的运动与上下文信息。

让模型自行决定什么最重要

由于有些手势主要靠手形来区分，而另一些则依赖更广泛的手臂动作或面部线索，TinyMSLR 并不固定一种融合配方来合并两种视角。相反，它使用一个小型“融合门”来学习对于每个输入片段应多大程度信任注重细节的分支或注重上下文的分支。该门查看两份特征摘要并输出两个始终相加为一的权重；最终表示是两者的加权混合。在训练期间，每个分支还配备了自己的小型分类器，使其学会独立发挥作用；同时，成对的较大“教师”网络（一 CNN、一 Transformer）通过不仅提供正确标签，还展示哪些备用标签相似，来温和地引导微型模型。这种称为知识蒸馏的技术有助于使紧凑系统在保持适合边缘设备的体积和速度的同时，逼近更重模型的精度。

看清系统为何做出每个决定

除了原始准确率外，作者强调用户与开发者应能检查模型关注的内容。他们采用 SHAP，这是一类为输入各部分分配重要性值的工具。实际上，他们在中间特征上计算这些解释并将其映射回帧，呈现为热图和时间曲线。这揭示了例如在视觉上相似的手势（如下雨与下雪，或冷与坏）之间做出决策时，哪些帧和区域起主导作用。汇总大量解释还显示了更广泛的模式：非手势提示（如面部表情与头部运动），以及腕部朝向与手形，成为尤其有影响力的因素。这些洞见有助于验证系统依赖的是手语的有意义方面，而非背景伪迹。

速度、节省与发展空间

在这套 20 手势的双语基准上，TinyMSLR 在训练与验证上约达到 99% 的准确率，F1 分数接近 99%，同时使用不到 270 万个参数和约每个片段 19 亿次运算。在现代 GPU 上，它处理一次手势大约耗时 13.5 毫秒，能量消耗低于 30 毫焦；存储后的模型仅约 7.2 兆字节。这些数据表明，实时的设备端手语识别在低成本开发板和嵌入式系统上是可行的。作者谨慎指出，他们的工作仅覆盖短的、孤立的手势和两种语言，并将面部表情作为隐含信息而非独立信号来处理。将该方法扩展到更丰富的词汇、连续句子、更多语言以及对面部与头部运动的显式建模则留待未来工作。不过，TinyMSLR 提供了一个有说服力的概念验证：准确、高效且可解释的手语理解工具无需局限于云端——它们可以直接运行在日常设备上。

引用: Lamaakal, I., Yahyati, C., Maleh, Y. et al. An explainable hybrid CNN–transformer model for sign language recognition on edge devices using adaptive fusion and knowledge distillation. Sci Rep 16, 7143 (2026). https://doi.org/10.1038/s41598-026-38478-8

关键词: 手语识别, 微型机器学习, 边缘人工智能, 可解释人工智能, 多语种模型