
手話は音声言語とは異なる独自の文法体系を持つ独立した言語であり、ろう者が自身の第一言語で即時的に意思疎通できる環境の整備は、共生社会の実現に向けた重要な課題である。現在、スマートフォン等のエッジデバイスで動作する軽量な手話認識モデルの開発が進んでいるが、計算リソースを制限すると特定の利用者の身体的特徴や癖に依存しない「汎化性能」が著しく低下するという、精度と計算コストのトレードオフが大きな障壁となっていた。
本研究は、計算負荷を最小限に抑えつつ、未知の話者に対しても正確に動作する高精度な手話認識手法の確立を目的とする。この課題に対し、手話単語が「動き」と「静止」の特定のパターンで構成されるという言語学上の「Movement-Holdモデル」に着目し、話者の個性に左右されない本質的な情報をキーフレームとして適応的に抽出する手法を考案した。
270単語の識別タスクにおいて、本手法は従来の高精度モデルと比較して計算量を約1/6、メモリ消費を約1/26に削減しながら、未知の話者に対し88.75%の認識精度を達成した。
本成果は、言語学的な知見を数理モデルに融合させることが認識効率と汎化性能の両立に極めて有効であることを示しており、実用的な手話通訳技術の社会実装を大きく加速させるものである。
Sign language is a distinct language with a unique grammatical system, and establishing environments for real-time communication in a user’s primary language is essential for achieving an inclusive society. While lightweight sign language recognition models for edge devices are being developed, they face a significant trade-off: limiting computational resources often leads to poor generalization performance when encountering unseen signers due to variations in individual motion patterns. This study aims to establish a high-accuracy recognition method that remains robust to signer variations while strictly minimizing computational costs. To address this challenge, we leveraged the linguistic “Movement-Hold model”—which defines signs as sequences of specific movements and pauses—to adaptively extract keyframes containing essential, signer-independent features. In a 270-word classification task, our approach reduced computational complexity to approximately 1/6 and memory usage to 1/26 compared to conventional high-performance models, while achieving 88.75% accuracy for unknown signers. These findings demonstrate that integrating linguistic insights into mathematical models is highly effective for balancing efficiency and generalization, significantly accelerating the social implementation of practical sign-language translation technologies.
Masaya Tsujimoto, Ken Takaki, Asuka Ando, Uiko Yano, Misa Suzuki, Yohei Oseki, Kai Kunze, Yoshihiro Kawahara

関連論文/Related Publications
辻本雅哉,高木健,Kai Kunze,川原圭博,”日本手話母語話者の動画を用いた未知話者に対する単語認識性能評価,” 2025年電子情報通信学会ソサイエティ大会, September 2025.
連絡先/Contact
tsujimoto@akg.t.u-tokyo.ac.jp