Clear Sky Science · ja

資源制約デバイス上での動的カンナダ手話認識

2026-02-26 · 一覧に戻る

会話の間隙を埋める

カルナータカ州の多くのろう者にとって、日常の会話はカンナダ手話（KSL）に依存しています。しかし、ほとんどの携帯電話やアプリは音声や書記言語しか扱えず、KSL利用者は他の人が当たり前とするデジタルツールを使えないままです。本研究はそのギャップに取り組み、短いKSLの手話をビデオから読み取り、一般的なスマートフォン上で効率的に動作するシステムを構築することで、手話使用者と非使用者の間の迅速かつプライベートなコミュニケーションの可能性を広げます。

実世界の手話ライブラリの構築

公開されたKSL単語のビデオデータベースが存在しなかったため、研究者らは一から作成を開始しました。ろう学校の教師やカルナータカ全域からの38人のボランティアと協力し、2000本以上のKSL手話ビデオを記録しました。チームは果物、月、曜日、時間帯や季節の4つのテーマに分けた33の身近な単語に注力しました。各単語は速度や場所、照明条件を変えて何度も撮影されました。この多様性により、システムは完璧な実験室環境だけでなく、現実世界の乱雑で予測できない条件にも対処できるようになります。

動きをコンピュータに学ばせる

重いビジョンモデルにフルフレームの映像を投入する代わりに、システムは各フレームを上半身と手を表すキーポイントの集合にまず還元します。GoogleのMediaPipe Holisticツールキットを用いて、研究者らは肩や肘、手首、指の関節など59のランドマークを追跡し、それらの3次元位置を時間経過で記録します。これにより、各ジェスチャー列はコンパクトな「スケルトン」として表現されます：1ビデオにつき75フレーム、それぞれ177の数値特徴を持ちます。ノイズに強くするために、カメラの小さな傾き、照明変化、人工的な粒子ノイズ、動きの加速・減速などを加えた注意深い映像増強でデータセットを拡張します。これらの手順は、モデルが特定の背景や録画条件を単に記憶するのではなく、手話の本質を学ぶのに役立ちます。

動く手話を読む三つの方法

この動きのより簡潔な表現を用いて、チームは各単語を認識するための3つのディープラーニング手法を比較しました。最初はLSTMで、フレームごとの系列を追跡し、重要な情報を保持しつつ雑音を忘れるように設計されたネットワークです。二つ目のBiLSTMは過去→未来と未来→過去の両方向からジェスチャーを見て、より豊かな動きの情報を得ます。三つ目はエンコーダのみのTransformerで、注意機構を使ってすべてのフレームを互いに関連づけて調べます：厳密な順序で走査する代わりに、どの瞬間が互いに最も依存しているかを学習します。いずれのモデルも同じデータを訓練、検証、テストに分割して使用し、動きのパターンだけから33語を分類するように調整されます。

強力なモデルを小型デバイス向けに縮小

高精度モデルはしばしば中程度の携帯電話のようなリソース制約デバイスには大きすぎたり遅すぎたりします。これを解決するために、著者らはTensorFlow Liteを用いたTinyML風の最適化を適用します。訓練済みモデルをポストトレーニング量子化と呼ばれる内部重みの数値精度を下げる手法で小型化します。動的レンジ、float16、完全整数型など複数のスキームを試しました。こうして縮小したモデルはFlutterベースのAndroidアプリに組み込まれます。Flutter内で直接MediaPipe Holisticを携帯機上で動かす組み込みサポートがまだないため、外部の軽量サーバがキーポイントを抽出し、コンパクトな動きデータだけをアプリに送り、最終的な認識は端末上で行う仕組みになっています。

手のひらの中での高速かつ高精度な手話読み取り

速度とサイズのために削減されているにもかかわらず、最良のモデルは印象的な性能を維持しています：33のKSL単語に対してテスト精度は約94〜96%です。動的量子化したBiLSTMが最高精度の95.71%に達し、量子化したTransformerモデルは端末上での予測が最速で、1サインあたり約16ミリ秒、モデルサイズは1MB強にとどまります。LSTMはサイズ、速度、精度のいずれでも中庸を保ちます。いずれも控えめなCPUおよびメモリ使用で動作し、常時インターネット接続や高価なハードウェアなしでも、日常的なスマートフォンでリアルタイムのKSL認識が実用的であることを示唆します。

日常生活にとっての意味

平たく言えば、本研究は一般的なスマートフォンに短いビデオからコアなKSL単語群を「理解」させることが、信頼性高く迅速に可能であることを示しています。専用のKSLビデオデータセットを作成し、ジェスチャーを身体と手のスケルトンに蒸留し、現代の系列モデルをエッジ上で効率的に動くよう圧縮することで、地域言語に特化したアクセスしやすい手話認識技術の青写真を提供します。現行システムは33の孤立単語のみを扱い、特徴抽出に小さなサーバを依然として頼っているものの、何十万ものKSL利用者が聞こえる世界とよりスムーズにコミュニケーションできるようにするための、着実な一歩を示しています。

引用: V, U., K S, N., K S, N. et al. Dynamic Kannada Sign Language Recognition on Resource Constrained Devices. Sci Rep 16, 11186 (2026). https://doi.org/10.1038/s41598-026-40181-7

キーワード: カンナダ手話, モバイル手話認識, TinyML, ジェスチャー認識, 支援技術