Clear Sky Science · zh

Sign4all：西班牙手语数据集

2026-02-23 · 返回目录

能与机器对话的双手

世界各地数以百万计的人将手语作为主要交流方式，但当今大多数应用和设备仍然只“听”得懂口语。为了弥合这一差距，计算机需要大量经过精心设计的手语视频集合来学习。本文介绍了 Sign4all，一套新的西班牙手语数据集，旨在帮助未来的手机、笔记本和公共设备更公平、更准确地理解日常手语。

为何需要新的手语数据

语音助手之所以进步神速，是因为它们以海量音频训练而成。手语并未享有同样的进展。现有的手语数据集常常试图覆盖数千个不同词汇，但每个词只有少量示例。这让计算机难以学习同一手势在不同人、服装、速度或摄像角度下的细微差异。许多集合还只录制右手使用者，尽管相当一部分人习惯用左手或双手签说。因此，用这些数据训练的系统在遇到左撇子或动作微小变化时可能失效。

来自日常生活的聚焦词汇

Sign4all 不是追求广度而是采取“少而精”的策略。研究者录制了 24 个与外出就餐和日常餐食相关的常用西班牙手语手势：代词如“我”和“你”，食物项例如肉、鱼和汤，餐具如勺子和叉子，以及疑问词包括“什么”“哪里”“什么时候”。每个手势平均有超过 300 个高分辨率片段，为学习算法提供大量示例以捕捉手势的变化。词汇的选择也便于将手势组合成短句，例如“我不喜欢肉”或“早餐有肉和鸡蛋”，为未来研究简单短语识别提供可能。

在左右手之间建立平衡

一项关键设计选择是将左撇子和右撇子的签说同等看待。八位志愿者（四女四男）在实验室使用高质量摄像机录制。每位受试者都用其惯用手和非惯用手分别完成每个单手或不对称双手手势。对称的双手手势则增加重复次数，以便每个手势类别最终拥有大致相同数量的片段。经过细致人工剪辑，最终集合包括 7,756 个视频，左右手表演几乎各占一半。这种平衡使未来的识别系统能学会忽略哪只手主导动作，而专注于动作模式本身。

将丰富视频转为干净的动作数据

录制内容经过处理以便更有利于机器学习。每个视频被剪辑为仅包含实际手势，不含进入或离开姿势的运动。所有片段都标准化为 48 帧——足以捕捉典型手势——从而避免模型仅凭片段长度猜词。图像以签说者为中心裁切，移除天花板和地面，同时保留自然体态，避免随意缩放原始矩形画面带来的畸变。除了彩色视频外，团队还使用姿态跟踪工具提取上身和手指关键关节的位置，逐帧构建紧凑的“骨架”描述。这些骨架以广泛使用的科学格式存储，可直接接入现代深度学习软件。

以变异而非完美来教会计算机

现实环境很杂乱：人们穿着各异，光线随日间变化，摄像机会有轻微抖动。为了帮助系统应对这些变化，作者制作了额外的预处理数据版本。有些片段左右翻转以模拟相反的用手；另一些则在亮度、色彩、模糊或旋转上做小幅改动，而不改变手势含义。这样将样本总数提升到超过 6 万条。基于视频的 Transformer 模型（一种现代神经网络）在这些增强数据上训练，显示识别性能显著提升。仅用骨架运动数据训练的更简单模型也达到很高的准确率，证明该数据集捕捉到了区分相似手势所需的关键信息。

对包容性技术的意义

对普通读者而言，Sign4all 传达的信息很明确：我们给机器的训练材料越好越公平，它们理解手语使用者的能力就越强。通过提供数千个高质量、平衡的日常西班牙手势示例——以及现成的动作描述和标准训练划分——该数据集为更可靠的手语识别系统奠定了基础。随着时间推移，这类工具可支持实时字幕、更无障碍的公共服务和聋人与听人之间更顺畅的交流，帮助确保数字技术既“听”得懂声音，也“看”得懂双手。

引用: Morillas-Espejo, F., Martinez-Martin, E. Sign4all: a Spanish Sign Language dataset. Sci Data 13, 502 (2026). https://doi.org/10.1038/s41597-026-06872-6

关键词: 手语识别, 西班牙手语, 手势数据集, 辅助技术, 机器学习