Clear Sky Science · he

ADAT — ארכיטקטורה אדפטיבית חדשנית עם מודעות לסדרות זמן לתרגום שפת סימנים

· חזרה לאינדקס

גםור על פער התקשורת

בעבור מיליוני אנשים חירשים וכבדי שמיעה, פעולות יום‑יומיות כמו ביקור אצל רופא או צפייה בדוח מזג‑אוויר יכולות להיות קשות יותר ממה שנדרש, פשוט כי פירושני שפת סימנים מיומנים נדירים. מאמר זה מציג מערכת בינה מלאכותית חדשה בשם ADAT שממירה סרטוני שפת סימנים למשפטים כתובים בדיוק וביעילות גבוהים יותר מרוב המערכות הקיימות, ובכך מקרבת אותנו לתרגום שפת סימנים בזמן אמת ונגיש בטלפונים, בטאבלטים ומחשבי בתי חולים.

מדוע שפת סימנים קשה למחשבים

שפות סימנים הן עשירות ומורכבות עם כללים דקדוקיים משלהן, והן תלויות בהרבה יותר מתנועת ידיים בלבד. הבעות פנים, יציבת הגוף ותזמון עדין משנים את משמעות המשפט החתום. מערכות תרגום מודרניות לרוב משתמשות בעיצוב עוצמתי של בינה מלאכותית הנקרא טרנספורמר, המיומן בהבנת משפטים ארוכים בשפה מדוברת או כתובה. אך כשמדובר בוידאו בקצב גבוה — 30–60 פריימים לשנייה — מערכות אלה עלולות להפוך לאיטיות ולהתקשות לזהות תנועות מהירות ודקות שמבדילות בין סימנים. הן גם דורשות כוח מחשוב רב וזמן אימון ארוך, מה שמקשה על עדכון המערכות כשהשפות מתפתחות.

Figure 1
Figure 1.

דרך חכמה יותר לקרוא סימון

הארכיטקטורה של ADAT מעוצבת במיוחד לסרטוני שפת סימנים, שבהם מדובר בסדרה־זמנית: זרם מהיר של אירועים חזותיים המתפתחים לאורך זמן. היא משלבת שלוש רעיונות. ראשית, משתמשת ברשתות נוירונים התכווצויות‑קונבולוציה, טכניקה מוכחת לעיבוד תמונה, כדי להתמקד בתבניות מקומיות כמו צורות יד והבאות פנים. שנית, משתמשת בצורת תשומת לב יעילה יותר, שמסתכלת בחזרה באופן סלקטיבי על רגעים מרכזיים בוידאו במקום להשוות כל פריים לכל פריים אחר. שלישית, "שער" אדפטיבי לומד כיצד למזג מידע קצר טווח מפורט עם הקשר ארוך טווח רחב יותר, ומתאים בזמן אמת מה חשוב יותר לכל חלק במשפט. יחד, רכיבים אלה מאפשרים ל‑ADAT לתפוס גם את תנועת האצבע המהירה וגם את המבנה הכולל של שיחה בלי לבזבז חישוב מיותר.

מסימנים למילים בשתי דרכים

ניתן לארגן תרגום שפת סימנים בשני שלבים עיקריים: ראשית זיהוי היחידות הבסיסיות של הסימון, המכונות גלוסים, ולאחר מכן המרת אותן גלוסים לטקסט מדובר או כתוב — זה נקרא sign‑to‑gloss‑to‑text. לחלופין, מערכת יכולה לנסות לעבור ישירות מן הוידאו לטקסט במכה אחת, הנקרא sign‑to‑text. החוקרים בודקים את ADAT בשתי הגישות. הם משווים אותה למספר בסיסים חזקים מבוססי טרנספורמר, כולל מערכת מוכרת בשם SLTUNET, על פני שלוש מערכי נתונים: מאגר גדול של תחזיות מזג‑אוויר בגרמנית, אוסף של שפת הסימנים ההודית, ומאגר AMERICAN SIGN LANGUAGE רפואי חדש שיצרו המחברים כדי לשקף שיחות רופא‑מטופל מציאותיות.

אימון מהיר יותר ותרגומים חדים יותר

בכל המבחנים הללו, ADAT משווה או גובר על הדגמים המתחרים הטובים ביותר באיכות התרגום, הנמדדת בציוני BLEU סטנדרטיים, תוך שהיא מתאמנת מהר יותר באופן ניכר. במערכת הדו‑שלבית sign‑to‑gloss‑to‑text היא מניבה ציונים דומים או מעט טובים יותר מטרנספורמר קלאסי אך מקצרת את זמן האימון בכמובן כחמישית בממוצע. במערכת הישירה והקשה יותר sign‑to‑text, ADAT עולה בבירור על בסיסי טרנספורמר שמבוססים רק על מקודד, רק על מפענח או מאוחדים, ומשפרת לעתים דיוק בכ‑אחוז או יותר, שוב עם כ‑20% האצה באימון. ניתוח מפורט של המתמטיקה הבסיסית מראה שהתשומת לב הסלקטיבית יותר והעיצוב הדו‑מסלולי של ADAT מקטינים משמעותית את מספר הפעולות הנדרשות, במיוחד בסרטונים ארוכים או בקצב פריימים גבוה.

Figure 2
Figure 2.

נתונים חדשים לשיחות קריטיות

כדי לוודא שהשיטות הללו חלות מעבר למעבדות, המחברים מציגים את MedASL, מאגר שפת הסימנים האמריקאית הראשון שממוקד בתקשורת רפואית. הוא כולל 500 משפטים ייחודיים ועושים בקפידה המדמים אינטראקציות אמיתיות בין מטופלים ואנשי מקצועות הבריאות, וכולל גם הערות גלוס וטקסט. המוקד הרפואי חשוב שכן אי־הבנות בבית חולים או מטופל עלולות להיות בעלות השלכות חמורות, ומערכי נתונים קיימים מעטים שמכסים תחום זה. ADAT מתפקדת היטב על MedASL, אם כי התוצאות גם מראות כמה קשה למערכת כלשהי להכליל בצורה מושלמת למשפטים חדשים מהעולם האמיתי.

מה זה אומר לחיי היומיום

בקצרה, המחקר מראה שאפשר לבנות מערכות תרגום שפת סימנים החכמות והחסכוניות: הן דורשות פחות זמן וכוח חישוב לאימון, ועדיין תופסות טוב יותר את הדקויות של הסימון. ADAT אינה עדיין מתורגמן מוכן לשימוש עבור כל שפת סימנים ובכל מצב, והיא עדיין מאחרת אחרי מערכות שמבוססות על מודלים מאומנים מראש עצומים. אך על ידי התמקדות בדפוסים ויזואליים רגישי‑זמן וביעילות, היא מצביעה על הדרך לכלים פרקטיים שיום אחד עשויים לפעול על מכשירים שגרתיים, לתמוך במספר שפות סימנים, ולעזור למשתמשים חירשים לתקשר ביתר קלות בסביבות קריטיות כמו בריאות, תגובה לחירום ושירותים ציבוריים.

ציטוט: Shahin, N., Ismail, L. ADAT novel time-series-aware adaptive transformer architecture for sign language translation. Sci Rep 16, 6551 (2026). https://doi.org/10.1038/s41598-026-36293-9

מילות מפתח: תרגום שפת סימנים, טרנספורמר אדפטיבי, תשומת לב לסדרות זמן, ASL רפואי, בינה מלאכותית נגישה