Clear Sky Science · he

תירגום מכונה נוירלי אנגלי–אסמי ללא דוגמות בעזרת יישור הטמעות בין-שפתיות מבוססות ציר ולמידת העברה

2026-03-17 · חזרה לאינדקס

מדוע זה חשוב לשיחות יומיומיות

מיליארדי אנשים מדברים שפות שחברות הטכנולוגיה הגדולות כמעט ואינן תומכות בהן. האסמית, המדוברת על ידי מיליונים בצפון־מזרח הודו, היא אחת מהן. ברשת זאת אומרת שחדשות, עצות בריאות ומידע ממשלתי באנגלית לרוב אינם נגישים. המאמר הזה מראה כיצד לבנות מערכת תירגום חזקה אנגלית–אסמית גם כאשר כמעט ואין נתוני אימון ישירים, על ידי שימוש חכם בבנגלית — שפה קרובה ובעלת משאבים טובים יותר — כגשר.

גשר לשוני במקום הר של נתונים

מערכות תירגום מודרניות בדרך כלל לומדות על ידי צפייה במיליוני משפטים מזוגגים: אותה שורה, למשל באנגלית ובצרפתית. עבור האסמית, נתונים מזוגגים כאלה נדירים. החוקרים מתחמקים מצוואר הבקבוק הזה על ידי אימון על זוגות אנגלית–בנגלית, שבהם הנתונים זמינים יותר, ואז העברת הידע לאסמית. מאחר שבנגלית ואסמית חולקות דמיון בדקדוק, באוצר המילים ובכתב, המערכת יכולה להתייחס לבנגלית כאבן דרך, ללמוד דפוסים שגם הגיוניים לאסמית בלי לראות אף פעם זוגות משפטים אנגלית–אסמית במהלך האימון.

להכניס שלוש שפות לחלל משמעות משותף

בליבה של הגישה עומד מודל רב־לשוני הנקרא mBART, שכבר יודע משהו על רבות מהשפות. החוקרים מחדדים מודל זה על תרגומי אנגלית–בנגלית ואז דוחפים מילים באנגלית, בנגלית ואסמית למפה משותפת של משמעות. הם עושים זאת בעזרת פרוצדורה מתמטית שנקראת יישור פרוקראסטס, שמסובבת ומתיחה את מפות המילים כך שמילים בעלות משמעות דומה בשלוש השפות יימצאו קרובות זו לזו. החלל המשותף הזה מאפשר שאם המערכת למדה לתרגם מילה אנגלית לבנגלית, היא תוכל להסיק כיצד לבטא מילה אסמית קרובה שיושבת באותו שכונה במפה.

טיפול במילים נדירות ושמירה על השפה הנכונה

שפות במשאבים נמוכים סובלות לא רק מחוסר בזוגות משפטים, אלא גם ממילים חסרות — במיוחד שמות, מונחים טכניים וסלנג בלתי פורמלי. כדי להתמודד עם זה, המערכת מפרקת מילים לחלקים קטנים יותר (תת־מילים) כך שאפילו מונחים שלא נראו בעבר יכולים להיות מורכבים ממבני־יסוד מוכרים. במקרים הנדירים שעדיין חורגים מהאוצר שלה, היא מוצאת את השכן הידוע הקרוב ביותר בחלל המשמעות המשותף ולוקחת את הייצוג שלו. במקביל, המודל מקבל באופן מפורש איזו שפה עליו להפיק באמצעות תגים לשפת פלט בקלט. התגים האלה, יחד עם החללים המיושרים של המילים, מצמצמים באופן חד כישלון נפוץ במערכות רב־לשוניות: מענה בשפה קרובה אבל שגויה, כמו בנגלית במקום אסמית.

בדיקת המסגרת במבחן

כדי להעריך האם כל הטריקים האלו עובדים, החוקרים בנו קבוצת מבחן שנבדקה בקפידה של למעלה מאלפיים זוגות משפטים אנגלית–אסמית ממקורות כמו חדשות, ויקיפדיה, שיחה וכתיבה טכנית. הם השוו את המערכת שלהם מול מספר חלופות: מודלים קטנים וגדולים שהתאמנו ישירות על נתוני אנגלית–אסמית, מודל רב־לשוני ללא תגים לשפה, וצנרת רגילה בשני שלבים שמתרגמת אנגלית לבנגלית ואז בנגלית לאסמית. על פני מספר מדדים אוטומטיים סטנדרטיים, המערכת שלהם במצב zero-shot — שאומנה בלי שום זוגות אנגלית–אסמית ישירים — ניצחה את כולן, ואף עלתה על מודל גדול בהרבה שאומן על 50,000 משפטים אמיתיים אנגלית–אסמית. שופטים אנושיים דוברי אסמית דירגו את תרגומי המערכת החדשה כמדויקים יותר במשמעות וזורמים יותר, כששיעור השגיאות ירד בכ־שליש.

מה זה אומר לדוברי שפות קטנות

במילים פשוטות, המחקר מראה שלעיתים לא צריך הרים של נתוני תירגום ישירים כדי לשרת דוברי שפות מיוצגות באופן לקוי. בבחירת שפת “עזר” קרובה לשונית כמו בנגלית, ביישור קפדני של הייצוגים המילוניים ובאיתות ברור של שפת הפלט הרצויה, החוקרים משיגים תירגום אנגלית–אסמית חזק ומהיר דיו לשימוש מעשי. המסגרת שלהם מגיעה ליותר מתשעים אחוז מאיכות של מערכת מפוקחת מלאה אידיאלית, ובזמן חישוב שמהיר בכמעט שליש. זה מציע מתכון מבטיח להבאת תירגום מכונה איכותי להרבה שפות במשאבים נמוכים ברחבי העולם שיש להן קרובות שנחקרו יותר אך מעט נתונים משלהן.

ציטוט: Nath, B., Gulzar, Y. Zero-shot English–Assamese neural machine translation via pivot-based cross-lingual embedding alignment and transfer learning. Sci Rep 16, 13732 (2026). https://doi.org/10.1038/s41598-026-44209-w

מילות מפתח: תירגום מכונה, שפת אסמי, NLP במשאבים מוגבלים, הטמעות חוצות-שפתיות, שפת ציר