Clear Sky Science · he

Sign4all: מאגר נתוני שפת סימנים ספרדית

· חזרה לאינדקס

ידיים שמדברות עם מכונות

מיליוני אנשים ברחבי העולם מסתמכים על שפות סימנים כאמצעי התקשורת העיקרי שלהם, אך רוב האפליקציות והמכשירים של היום עדיין "שומעים" רק מילים מדוברות. כדי לגשר על הפער הזה, מחשבים זקוקים לאוספים גדולים ומתוכננים בקפידה של סרטוני שפת סימנים כדי ללמוד מהם. מאמר זה מציג את Sign4all, מאגר נתונים חדש של שפת הסימנים הספרדית שנבנה כדי לעזור לטלפונים, למחשבים ניידים ולמכשירים ציבוריים בעתיד להבין סימנים יומיומיים באופן הוגן ומדויק יותר.

Figure 1
Figure 1.

מדוע נדרשים נתונים חדשים לשפת סימנים

עוזרי קול השתפרו במהירות משום שאומנו על אוספים עצומים של הקלטות קוליות. שפות סימנים לא זכו להתקדמות דומה. מאגרי סימנים קיימים נוטים לכסות אלפי מילים שונות אך להציג כל אחת מהן רק מספר מועט של פעמים. זה מקשה על מחשב ללמוד איך אותו סימן יכול להיראות מעט שונה בין אנשים, לבוש, מהירות או זווית מצלמה. רבים מהאוספים גם מצלמים רק מקישים ימניים, למרות שחלק ניכר מהאוכלוסייה מסמן עם היד השמאלית או משתמש בשתי הידיים. כתוצאה מכך, מערכות שאומנו על נתונים אלה עלולות להיכשל כשהן נתקלו במקישים שמאליים או בשינויים עדינים בתנועה.

אוצר מילים ממוקד מחיי היומיום

במקום לשאוף לרוחב עצום, Sign4all נוקט בגישה של "קטן אך עמוק". החוקרים הקליטו 24 סימני שפת הסימנים הספרדית הנפוצים הקשורים לארוחות בחוץ ולאוכל יומיומי: כינויי גוף כמו "אני" ו"אתה", פריטי מזון כמו בשר, דג ומרק, כלי אוכל כגון כפית ומזלג, ומילות שאלה כגון "מה", "איפה" ו"מתי". לכל סימן יש בממוצע יותר מ‑300 קטעי וידאו ברזולוציה גבוהה, מה שנותן לאלגוריתמים ללמידה דוגמאות רבות לאופן שבו כל מחווה יכולה להשתנות. אוצר המילים נבחר גם כך שניתן יהיה לשלב סימנים למשפטים קצרים, כגון "אני לא אוהב בשר" או "יש לי בשר וביצים לארוחת בוקר", מה שמאפשר לחוקרים לחקור בעתיד זיהוי ביטויים פשוטים.

בניית איזון בין שמאל לימין

בחירת עיצוב מרכזית היתה להתייחס להחתמה בשמאל ובימין כשווים בחשיבותם. שמונה מתנדבים (ארבע נשים וארבעה גברים) הוקלטו במעבדה באמצעות מצלמה איכותית. כל אחד מהם ביצע כל סימן חד‑ידני או סימן דו‑ידני לא סימטרי הן עם ידו הדומיננטית והן עם היד הלא‑דומיננטית. סימנים דו‑ידניים סימטריים הוקלטו עם חזרות נוספות כך שלכל מחלקת סימן היה בסופו של דבר מספר קטעים דומה למדי. לאחר חיתוך ידני מדוקדק, האוסף הסופי כולל 7,756 סרטונים, מחולקים כמעט באופן מושלם בין ביצועים בשמאל ובימין. איזון זה מאפשר למערכות זיהוי עתידיות ללמוד להתעלם מאיזו יד מובילה את התנועה ולהתמקד במקום זאת בדפוס עצמו.

Figure 2
Figure 2.

הפיכת סרטונים עשירים לנתוני תנועה נקיים

ההקלטות עובדו כדי להיות שימושיות ככל האפשר ללמידת מכונה. כל וידאו נחתך כך שיכיל רק את הסימן עצמו, לא את התנועה של כניסה או יציאה מהעמדה. כל הקליפים הוסדרו ל‑48 פריימים — מספיק זמן כדי ללכוד מחווה טיפוסית — כדי שמודלים לא יוכלו לרמות באמצעות שימוש באורך הקליפ כדי לנחש את המילה. התמונות גזורו סביב הממסמן כדי להסיר תקרת וחלל רצפה תוך שמירה על צורת הגוף הטבעית, והימנעות מעיוותים שיכנסו אם החומר הגולמי יותאם באופן אקראי. בנוסף לסרטוני צבע, הצוות השתמש בכלי מעקב פוזה כדי לחלץ את מיקום המפרקים המרכזיים בחלק העליון של הגוף ובהאצבעות, ובנה תיאור קומפקטי של "דמות מקושקשת" פר פריים. שלדי התנועה הללו מאוחסנים בפורמטים מדעיים נפוצים כך שניתן יהיה לחברם ישירות לתוכנות למידה עמוקה מודרניות.

ללמד מחשבים על ידי שונות, לא על ידי שלמות

הסביבות בעולם האמיתי מבולגנות: אנשים לובשים בגדים שונים, התאורה משתנה במהלך היום, והמצלמות רועדות במעט. כדי לסייע למערכות להתמודד עם שונות כזו, החוקרים יצרו גרסאות נוספות מעובדות מראש של המאגר. חלק מהקליפים הופכו שמאלה‑ימינה כדי לדמות את היד ההפוכה; אחרים שונו עם שינויים קטנים בבהירות, בצבע, בטשטוש או בסיבוב, מבלי לפגוע במשמעות הסימן. זה הגדיל את מספר הדגימות הכולל ליותר מ‑60,000. ניסויים עם מודל Transformer מבוסס וידאו — סוג מודרני של רשת עצבית — הראו שאימון עם נתונים אלה שיפר באופן חדה את ביצועי הזיהוי. מודל פשוט יותר שאומן רק על נתוני השלד התנועתי גם הגיע לדיוק גבוה, והוכיח שהמאגר לוכד את המידע החיוני הנדרש להבחין בין סימנים דומים.

מה זה אומר לטכנולוגיה מכילה

לעיין מן השוליים, המסר של Sign4all פשוט: ככל שנעניק למכונות שלנו חומר אימון טוב והוגן יותר, כך הן יהיו טובות יותר בהבנת אנשים שמסמנים. על ידי הצעת אלפי דוגמאות איכותיות ומאוזנות של סימנים ספרדיים יומיומיים — יחד עם תיאורי תנועה מוכנים לשימוש וחלוקות אימון סטנדרטיות — מאגר זה מספק את התשתית למערכות זיהוי שפת סימנים אמינות יותר. עם הזמן, כלים כאלה יוכלו לתמוך בתמלול בזמן אמת, בשירותים ציבוריים נגישים יותר ובתקשורת חלקה יותר בין קהילות חירשים ושומעים, ולסייע להבטיח שטכנולוגיה דיגיטלית "תשמע" גם ידיים וגם קולות.

ציטוט: Morillas-Espejo, F., Martinez-Martin, E. Sign4all: a Spanish Sign Language dataset. Sci Data 13, 502 (2026). https://doi.org/10.1038/s41597-026-06872-6

מילות מפתח: זיהוי שפת סימנים, שפת הסימנים הספרדית, מאגרי מחוות, טכנולוגיה מסייעת, למידת מכונה