Clear Sky Science · he

זיהוי דינמי של שפת הסימנים הקנאדה על מכשירים עם משאבים מוגבלים

· חזרה לאינדקס

גשר על פער התקשורת

עבור רבים מהחירשים בקנרטקה, שיחות יומיומיות תלויות בשפת הסימנים הקנאדה (KSL). עם זאת, רוב הטלפונים והאפליקציות מבינים רק שפות מדוברות וכתובות, ומשאירים את משתמשי KSL ללא הכלים הדיגיטליים שאחרים נוטים לקחת כמובן מאליו. המחקר הזה מתמודד עם הפער על‑ידי בניית מערכת שיכולה לקרוא סימני KSL קצרים מתוך וידאו ולהריץ ביעילות על סמארטפונים רגילים, ומציבה בסיס לתקשורת מהירה ופרטית יותר בין מדברים בשפת הסימנים ובין אנשים שאינם מבינים אותה.

בניית ספריית סימנים מהעולם האמיתי

מכיוון שלא התקיים מאגר וידאו ציבורי של מילים ב־KSL, החוקרים החלו ביצירת אחד מאפס. הם עבדו עם מורים בבית ספר לילדים חירשים ועם 38 מתנדבים מכל רחבי קנרטקה כדי להקליט יותר מאלפיים סרטונים של סימני KSL. הצוות התמקד ב־33 מילים יומיומיות המחולקות לארבעה נושאים: פירות, חודשים, ימות השבוע, וזמני היום או עונות השנה. כל מילה צולמה פעמים רבות, במהירויות שונות, במקומות שונים ותחת תנאי תאורה משתנים. הגיוון הזה עוזר למערכת להתמודד עם תנאים בלתי צפויים ומבולגנים של החיים האמיתיים במקום לעבוד רק בסביבה מעבדתית אידיאלית.

Figure 1
Figure 1.

לימוד מחשבים לראות תנועה

במקום להזין תמונות וידאו מלאות למודל חזון כבד, המערכת מקטינה תחילה כל פריים למערך של נקודות מפתח המייצגות את חלקו העליון של הגוף והידיים של המוסר. באמצעות ערכת הכלים MediaPipe Holistic של גוגל, החוקרים עוקבים אחר 59 צמתים — כגון כתף, מרפק, מפרק שורש כף היד ומפרקי האצבעות — ורושמים את מיקומיהם התלת־ממדיים לאורך זמן. הדבר יוצר "שלד" דחוס של כל רצף מחוות: 75 פריימים לסרטון, שכל אחד מהם כולל 177 תכונות מספריות. כדי לחזק את המערכת בפני רעש, הם מרחיבים את מערך הנתונים באמצעות העשרות וידאו זהירות, הכוללות הטיות קטנות של המצלמה, שינויים בתאורה, נקודות רעש מלאכותיות, והאצות והאטות בתנועה. צעדים אלה עוזרים למודלים ללמוד את מהות הסימן במקום לשנן רק רקע או תנאי הקלטה מסוימים.

שלוש דרכים לקרוא סימן בתנועה

עם ייצוג תנועה נקי יותר זה, הצוות משווה שלוש גישות למידת עומק לזיהוי כל מילה מסומנת. הראשונה היא LSTM, רשת שנועדה לעקוב אחרי רצפים פריים אחרי פריים, לזכור פרטים חשובים ולשכוח הסחות דעת. השנייה, BiLSTM, בוחנת את המחווה משתי נקודות מבט — מהעבר לעתיד ומהעתיד לעבר — ומעניקה לה מבט עשיר יותר על התנועה. השלישית היא טרנספורמר מסוג encoder‑only, שבודק את כל הפריימים יחסית זה לזה באמצעות מנגנון תשומת לב: במקום לסרוק בסדר קפדני, הוא לומד אילו רגעים במחווה תלויים זה בזה. כל שלושת המודלים רואים את אותם נתונים שחולקו לסטים של אימון, אימות ובדיקה, ומכוילים לסווג את 33 המילים על סמך דפוסי התנועה בלבד.

הקטנת מודלים חזקים למכשירים קטנים

מודלים בעלי דיוק גבוה לעתים קרובות גדולים ואיטיים מדי למכשירים בעלי משאבים מוגבלים כמו טלפונים ממוצעים. כדי לפתור זאת, המחברים מיישמים אופטימיזציות בסגנון TinyML באמצעות TensorFlow Lite. הם ממירים כל מודל מאומן לגרסאות קטנות יותר על‑ידי הקטנת הדיוק המספרי של המשקולות הפנימיות — תהליך הידוע ככימות אחרי אימון. נבדקו מספר סכימות, כולל טווח דינמי, float16 וגרסאות שלמות־אינטגרליות. המודלים המצומצמים הללו מוטמעים לאחר מכן באפליקציית אנדרואיד מבוססת Flutter. מאחר שעדיין אין תמיכה מובנית להרצת MediaPipe Holistic ישירות על הטלפון בתוך Flutter, שרת חיצוני קל משקל מחלץ את נקודות המפתח ושולח רק את נתוני התנועה הדחוסים חזרה לאפליקציה, אשר מבצעת את הזיהוי הסופי על המכשיר.

Figure 2
Figure 2.

קריאה מהירה ומדויקת של סימנים בכף היד

למרות שקוצצו כדי לשפר מהירות וגודל, המודלים הטובים שומרים על ביצועים מרשימים: בסביבות 94–96% דיוק בבדיקת ה־33 מילי KSL. ה‑BiLSTM המקוּוָן דינמית מגיע לדיוק הגבוה ביותר של 95.71%, בעוד שמודל הטרנספורמר המקוּוָן מספק את התחזיות המהירות ביותר על הטלפון — כ־16 מילישניות לסימן — עם גודל מודל של קצת יותר מ‑1 MB. ה‑LSTM מהווה פשרה בין גודל, מהירות ודיוק. שלושת המודלים רצים בצריכת CPU וזיכרון מצומצמת יחסית, מה שמרמז כי זיהוי KSL בזמן אמת יכול להיות מעשי אפילו על סמארטפונים יומיומיים ללא חיבור אינטרנט קבוע או חומרה יקרה.

מה זה אומר לחיי היומיום

פשטנית, העבודה הזו מראית שאפשר להעניק לסמארטפון רגיל את היכולת "להבין" קבוצה מרכזית של מילים ב‑KSL מתוך סרטונים קצרים, באופן אמין ומהיר. על ידי יצירת מערך נתונים ייעודי ל‑KSL, דיסטילציה של מחוות ל"שלדי" גוף וידיים, ודחיסת מודלי רצף מודרניים להרצה יעילה בקצה, החוקרים מספקים מתווה לטכנולוגיית זיהוי סימנים נגישה המותאמת לשפה אזורית. למרות שהמערכת הנוכחית מטפלת רק ב‑33 מילים מבודדות ועדיין מסתמכת על שרת קטן לחילוץ תכונות, היא מהווה צעד ממשי לקראת כלים עשירים יותר, הרצים במלואם על המכשיר, שיכולים לעזור למאות אלפי משתמשי KSL לתקשר בצורה חלקה יותר עם העולם השומע.

ציטוט: V, U., K S, N., K S, N. et al. Dynamic Kannada Sign Language Recognition on Resource Constrained Devices. Sci Rep 16, 11186 (2026). https://doi.org/10.1038/s41598-026-40181-7

מילות מפתח: שפת סימנים קנאדה, זיהוי סימנים בנייד, TinyML, זיהוי מחוות, טכנולוגיה מסייעת