Clear Sky Science · ar
التعرّف الديناميكي على لغة الإشارة الكانادا على أجهزة محدودة الموارد
ردم فجوة المحادثة
بالنسبة لكثير من الصم في كارناتاكا، تعتمد المحادثات اليومية على لغة الإشارة الكانادا (KSL). ومع ذلك، تفهم معظم الهواتف والتطبيقات اللغات المنطوقة والمكتوبة فقط، مما يترك مستخدمي KSL دون أدوات رقمية يتمتع بها الآخرون. تتعامل هذه الدراسة مع تلك الفجوة عبر بناء نظام قادر على قراءة إشارات KSL القصيرة من الفيديو وتشغيله بكفاءة على هواتف ذكية عادية، مما يفتح الباب لتواصل أسرع وأكثر خصوصية بين الموقّعين وغير الموقّعين.
بناء مكتبة إشارات للعالم الحقيقي
بما أن قاعدة بيانات فيديو عامة لكلمات KSL لم تكن موجودة، بدأ الباحثون بإنشاء واحدة من الصفر. تعاونوا مع معلمين في مدرسة للأطفال الصم ومع 38 متطوعًا من أنحاء كارناتاكا لتسجيل أكثر من ألفي فيديو لإشارات KSL. ركز الفريق على 33 كلمة يومية مجمعة في أربع فئات: فواكه، أشهر السنة، أيام الأسبوع، وأوقات اليوم أو الفصول. تم تصوير كل كلمة مرات عديدة، بسرعات مختلفة، في مواقع متنوعة، وتحت إضاءات متباينة. تساعد هذه التنويعات النظام على التعامل مع الظروف الفوضوية وغير المتوقعة في الحياة الواقعية بدلاً من العمل فقط في بيئة مختبرية مثالية.

تعليم الحواسيب رؤية الحركة
بدلاً من إدخال إطارات الفيديو الكاملة إلى نموذج رؤية ثقيل، يقلل النظام أولاً كل إطار إلى مجموعة من النقاط المفتاحية التي تمثل الجزء العلوي من جسم الموقّع واليدين. باستخدام أداة MediaPipe Holistic من جوجل، يتتبع الباحثون 59 علامة—مثل الكتف، الكوع، المعصم ومفاصل الأصابع—ويُسجلون مواضعها ثلاثية الأبعاد مع مرور الزمن. ينتج عن ذلك «هيكل عظمي» مدمج لكل تسلسل إيماء: 75 إطارًا لكل فيديو، يحتوي كل إطار على 177 ميزة رقمية. لتعزيز مقاومة النظام للضوضاء، يوسّعون مجموعة البيانات بتعديلات دقيقة على الفيديو، مضيفين ميلانًا طفيفًا للكاميرا، تغييرات في الإضاءة، بقعًا صناعية، وتسريع وإبطاء الحركة. تساعد هذه الخطوات النماذج على تعلم جوهر الإشارة بدلاً من حفظ خلفية أو ظروف تسجيل محددة.
ثلاث طرق لقراءة إشارة متحركة
بفضل هذا التمثيل الأنقى للحركة، يقارن الفريق ثلاث طرق للتعلّم العميق للتعرّف على كل كلمة موشّحة. الأول هو LSTM، شبكة مصممة لمتابعة التسلسلات إطارًا تلو الآخر، تتذكر التفاصيل المهمة وتنسى المشتتات. الثاني، BiLSTM، ينظر إلى الإيماءة من الماضي إلى المستقبل ومن المستقبل إلى الماضي، مما يمنحه رؤية أغنى للحركة. الثالث هو مُشفّر Transformer فقط، الذي يفحص جميع الإطارات بالنسبة إلى بعضها البعض باستخدام آلية الانتباه: بدلاً من المسح بترتيب صارم، يتعلّم أي اللحظات في الإشارة تعتمد أكثر على بعضها البعض. ترى النماذج الثلاثة نفس البيانات مقسمة إلى مجموعات تدريب وتحقق واختبار، وتُعدّل لتصنيف الكلمات الـ33 استنادًا إلى أنماط الحركة وحدها.
تقليص نماذج قوية لأجهزة صغيرة
غالبًا ما تكون النماذج عالية الدقة كبيرة وبطيئة جدًا للأجهزة محدودة الموارد مثل الهواتف متوسطة المواصفات. لمعالجة ذلك، يطبّق المؤلفون تحسينات من نمط TinyML باستخدام TensorFlow Lite. يحوّلون كل نموذج مدرّب إلى نسخ أصغر عن طريق تقليل الدقة العددية للأوزان الداخلية—عملية تُعرف باسم التكميم بعد التدريب. جُرّبت عدة مخططات، بما في ذلك المدى الديناميكي، float16، ونسخ صحيحة كاملة. تُضمّن هذه النماذج المُقلمة بعد ذلك في تطبيق أندرويد مبني بـFlutter. ولأنه لا يوجد دعم مدمج لتشغيل MediaPipe Holistic مباشرة على الهاتف ضمن Flutter بعد، يقوم خادم خارجي خفيف باستخراج النقاط المفتاحية ويرسل فقط بيانات الحركة المدمجة مرة أخرى إلى التطبيق، الذي يُجري التعرّف النهائي على الجهاز.

قراءة سريعة ودقيقة للإشارات في يدك
على الرغم من تقليصها للسرعة والحجم، تحتفظ أفضل النماذج بأداء مُبهر: حوالي 94–96% دقة اختبار على الكلمات الـ33 من KSL. يصل BiLSTM المُكمّم ديناميكيًا إلى أعلى دقة بنسبة 95.71%، بينما يقدم نموذج Transformer المُكمّم أسرع توقعات على الهاتف—حوالي 16 مللي ثانية لكل إشارة—بحجم نموذج يزيد قليلًا عن 1 ميغابايت. يشغل LSTM موقفًا وسطًا بين الحجم والسرعة والدقة. تعمل النماذج الثلاثة باستخدام معالجات وذاكرة متواضعين، ما يشير إلى أن التعرّف على KSL في الزمن الحقيقي يمكن أن يكون عمليًا حتى على الهواتف اليومية دون اتصال مستمر بالإنترنت أو أجهزة مكلفة.
ماذا يعني هذا للحياة اليومية
بعبارة بسيطة، تُظهر هذه الدراسة أنه من الممكن منح هاتف ذكي عادي القدرة على «فهم» مجموعة أساسية من كلمات KSL من مقاطع فيديو قصيرة، بشكل موثوق وسريع. من خلال إنشاء مجموعة بيانات فيديو مخصصة لـKSL، وتكثيف الإيماءات إلى هياكل جسدية لليدين والجسم، وضغط نماذج التسلسل الحديثة لتعمل بكفاءة على الحافة، يقدم الباحثون خارطة طريق لتكنولوجيا تعرّف الإشارات المتاحة والمصممة للغة إقليمية. بينما يتعامل النظام الحالي مع 33 كلمة معزولة فقط ويعتمد لا يزال على خادم صغير لاستخراج الميزات، فإنه يمثل خطوة ملموسة نحو أدوات أكثر ثراءً ومتكاملة على الجهاز قد تساعد مئات الآلاف من مستخدمي KSL على التواصل بسلاسة أكبر مع المجتمع السامع.
الاستشهاد: V, U., K S, N., K S, N. et al. Dynamic Kannada Sign Language Recognition on Resource Constrained Devices. Sci Rep 16, 11186 (2026). https://doi.org/10.1038/s41598-026-40181-7
الكلمات المفتاحية: لغة الإشارة الكانادا, التعرّف على الإشارة على الهواتف, TinyML, التعرّف على الإيماءات, تكنولوجيا مساعدة