Clear Sky Science · ar
الترجمة الآلية بدون عينات من الإنجليزية إلى الأسامية عبر محاذاة التمثيلات عبر اللغات ونقل التعلم باستخدام لغة وسيطة
لماذا يهم هذا في المحادثات اليومية
مليارات الناس يتحدثون لغات لا تدعمها شركات التكنولوجيا الكبرى بالكاد. الأسامية، التي يتحدث بها الملايين في شمال شرق الهند، هي واحدة من هذه اللغات. على الإنترنت، يعني هذا أن الأخبار والنصائح الصحية والمعلومات الحكومية بالإنجليزية غالباً ما تكون خارج متناولهم. تُظهر هذه الورقة كيف يمكن بناء نظام ترجمة قوي من الإنجليزية إلى الأسامية حتى عندما يكاد لا يوجد بيانات تدريب مباشرة، من خلال استخدام البنجالية—وهي لغة قريبة وأكثر غنى بالموارد—كجسر ذكي.
جسر لغوي بدلاً من جبل من البيانات
عادةً ما تتعلم أنظمة الترجمة الحديثة من خلال مشاهدة ملايين الأزواج الموازية من الجمل: نفس السطر بالإنجليزية والفرنسية مثلاً. بالنسبة للأسامية، مثل هذه البيانات الموازية نادرة. يتجاوز الباحثون عنق الزجاجة هذا بالتدريب على أزواج إنجليزية–بنجالية حيث تتوفر بيانات أكثر، ثم نقل تلك المعرفة إلى الأسامية. وبما أن البنجالية والأسامية تشتركان في قواعد ومفردات وخط مشابه، يستطيع النظام اعتبار البنجالية كحجر خطوة، متعلماً أنماطاً تنطبق أيضاً على الأسامية دون رؤية أزواج جمل إنجليزية–أسامية أثناء التدريب.
إدخال ثلاث لغات إلى فضاء مشترك واحد
في جوهر المنهج نموذج متعدد اللغات يُدعى mBART، الذي يعرف بالفعل شيئاً عن عدة لغات. يعمل الباحثون على تحسين هذا النموذج عبر الترجمة بين الإنجليزية والبنجالية ثم يدفعون كلمات الإنجليزية والبنجالية والأسامية إلى «خريطة» مشتركة للمعنى. يتم ذلك بإجراء رياضي يُسمى محاذاة بروكروستيس، والذي يدير ويشد خرائط الكلمات بحيث تتقارب الكلمات ذات المعاني المتشابهة في اللغات الثلاث. هذا الفضاء المشترك يعني أنه إذا تعلّم النظام كيف يترجم كلمة إنجليزية إلى بنغالية، فيمكنه استنتاج كيفية التعبير عنها بكلمة أسامية قريبة تقع في نفس الحي على الخريطة. 
التعامل مع الكلمات النادرة والحفاظ على اللغة الصحيحة
تعاني اللغات منخفضة الموارد ليس فقط من غياب أزواج الجمل، بل أيضاً من نقص الكلمات—وخاصة الأسماء والمصطلحات التقنية واللغة العامية. للتعامل مع ذلك، يكسر النظام الكلمات إلى قطع أصغر (تحت الكلمات) بحيث يمكن تركيب المصطلحات غير المرئية من قطع مألوفة. للحالات النادرة التي تبقى خارج مفرداته، يجد أقرب جار معروف في فضاء المعنى المشترك ويستعير تمثيله. في الوقت نفسه، يتم إخبار النموذج صراحةً باللغة التي يجب أن ينتجها باستخدام علامات لغة خاصة عند الإدخال. هذه العلامات، مع مساحات الكلمات المحاذية، تقلل بشكل كبير فشلاً شائعاً في الأنظمة متعددة اللغات: الإجابة عن طريق الخطأ بلغة قريبة أخرى، مثل البنجالية بدلاً من الأسامية.
اختبار الإطار العملي
لتقييم ما إذا كانت هذه الحيل تعمل، بنى المؤلفون مجموعة اختبار مفحوصة بعناية تضم أكثر من ألفي زوج جملة إنجليزية–أسامية من الأخبار وويكيبيديا والمحادثة والكتابات التقنية. قارنوا نظامهم بعدة بدائل: نماذج صغيرة وكبيرة مدرَّبة مباشرة على بيانات إنجليزية–أسامية، نموذج متعدد اللغات بدون علامات اللغة، وأنبوب ثنائي تقليدي يترجم الإنجليزية إلى البنجالية ثم من البنجالية إلى الأسامية. عبر عدة مقاييس آلية معيارية، تفوّق نظامهم الصفري-اللُّقطة—المدرَّب دون أي أزواج إنجليزية–أسامية مباشرة—على كل هذه البدائل، بل تفوّق أيضاً على نموذج أكبر بكثير مدرَّب على 50,000 جملة إنجليزية–أسامية حقيقية. قَيَّم الحكَّام البشريون الذين هم من الناطقين بالأسامية ترجمات النظام الجديد بأنها أكثر دقة من حيث المعنى وأكثر طلاقة، مع انخفاض معدلات الخطأ بنحو الثلث. 
ماذا يعني هذا لمتحدثي اللغات الصغيرة
بعبارة بسيطة، تُظهر الدراسة أنك لا تحتاج دائماً إلى جبال من بيانات الترجمة المباشرة لخدمة متكلمي اللغات الممثلة تمثيلاً ضعيفاً. باختيار لغة «مساعدة» قريبة لغوياً مثل البنجالية، ومحاذاة تمثيلات الكلمات بين اللغات بعناية، والإشارة بوضوح إلى لغة المخرج المطلوبة، يحقق المؤلفون ترجمة إنجليزية–أسامية قوية وسريعة كفاية للاستخدام العملي. يصل إطارهم إلى أكثر من تسعين بالمئة من جودة نظام خاضع للإشراف الكامل المثالي، بينما يعمل أسرع بنحو الثلث في وقت الاستدلال. وهذا يقترح وصفة واعدة لنقل ترجمة آلية عالية الجودة إلى العديد من اللغات منخفضة الموارد الأخرى حول العالم التي لديها أقارب مدروسة بشكل أفضل لكن بياناتها الخاصة ضئيلة.
الاستشهاد: Nath, B., Gulzar, Y. Zero-shot English–Assamese neural machine translation via pivot-based cross-lingual embedding alignment and transfer learning. Sci Rep 16, 13732 (2026). https://doi.org/10.1038/s41598-026-44209-w
الكلمات المفتاحية: الترجمة الآلية, لغة الأسامية, معالجة اللغات منخفضة الموارد, التمثيلات عبر اللغات, اللغة الوسيطة