Clear Sky Science · ar

هيكلية محول متكيّفة وواعية للسلاسل الزمنية ADAT لترجمة لغة الإشارة

· العودة إلى الفهرس

سد فجوة التواصل

بالنسبة لملايين الأشخاص الصم وضعاف السمع، قد تكون المهام اليومية مثل زيارة الطبيب أو مشاهدة نشرة الطقس أصعب مما ينبغي، ببساطة لأن مترجمي لغة الإشارة المهرة نادرون. تقدم هذه الورقة نظام ذكاء اصطناعي جديدًا يُدعى ADAT يحول فيديوهات لغة الإشارة إلى جمل مكتوبة بدقة وكفاءة أكبر من العديد من الأنظمة الحالية، مقرّبةً إيانا خطوة نحو ترجمة لغة الإشارة في الوقت الحقيقي والمتاحة على الهواتف والأجهزة اللوحية وأجهزة الحواسيب بالمستشفيات.

لماذا لغة الإشارة صعبة على الحواسيب

لغات الإشارة لغات غنية ومعقدة لها قواعدها الخاصة، وتعتمد على أكثر من مجرد تحريك اليدين. تعابير الوجه، وضعية الجسم، والتوقيت الدقيق كلها تغيّر معنى الجملة المشارة. تستخدم أنظمة الترجمة الحديثة غالبًا تصميمًا قويًا للذكاء الاصطناعي يُعرف بالمحوّل (Transformer)، وهو جيد جدًا في فهم الجمل الطويلة في اللغة المحكية أو المكتوبة. لكن عند التعامل مع فيديو عالي السرعة—30 إلى 60 إطارًا في الثانية—يمكن أن تصبح هذه الأنظمة بطيئة وتواجه صعوبة في ملاحظة الحركات السريعة والدقيقة التي تميّز إشارة عن أخرى. كما أنها تحتاج الكثير من القدرة الحاسوبية ووقت التدريب، مما يصعّب تحديثها مع تطور لغات الإشارة.

Figure 1
الشكل 1.

طريقة أذكى لقراءة الإشارات

تم تصميم بنية ADAT خصيصًا لفيديوهات لغة الإشارة، معاملًا إياها كسلسلة زمنية: تيار سريع من الأحداث البصرية التي تتكشف عبر الزمن. تجمع البنية بين ثلاث أفكار. أولًا، تستخدم شبكات عصبية تلافيفية، وهي تقنية مثبتة للصور، للتركيز على الأنماط المحلية مثل أشكال اليدين وإشارات الوجه. ثانيًا، تعتمد شكلًا أكثر كفاءة من الانتباه، ينظر انتقائيًا إلى لحظات مفتاحية في الفيديو بدلًا من مقارنة كل إطار مع كل إطار آخر. ثالثًا، يتعلم «بوابة» متكيّفة كيفية مَزج المعلومات التفصيلية قصيرة الأمد مع سياق أوسع طويل الأمد، لتقرر ميدانيًا أيُّها أكثر أهمية لكل جزء من الجملة. معًا، تتيح هذه الأجزاء لـADAT التقاط كل من الوميضة السريعة لإصبع وبنية المحادثة الشاملة دون إهدار عمليات حسابية.

من الإشارات إلى الكلمات بطريقتين

يمكن تنظيم ترجمة لغة الإشارة في خطوتين رئيسيتين: أولًا التعرف على الوحدات الأساسية للإشارة، المعروفة بالغلوصات (glosses)، ثم تحويل تلك الغلوصات إلى نص منطوق أو مكتوب. تُسمى هذه الطريقة «إشارة إلى غلوص إلى نص». بديلًا عن ذلك، يمكن للنظام أن يحاول الانتقال مباشرة من الفيديو إلى النص في خطوة واحدة، وتُسمى «إشارة إلى نص». يختبر المؤلفون ADAT على كلا الأسلوبين. يقارنونه بعدة نماذج أساسية قوية مبنية على المحول، بما في ذلك نظام معروف باسم SLTUNET، عبر ثلاث مجموعات بيانات: مجموعة كبيرة من توقعات الطقس الألمانية، مجموعة للغة الإشارة الهندية، ومجموعة طبية جديدة للغة الإشارة الأمريكية أنشأها المؤلفون لتعكس محادثات طبية واقعية بين الطبيب والمريض.

تدريب أسرع وترجمات أوضح

عبر هذه الاختبارات، يوازي ADAT أو يتفوق على أفضل النماذج المنافسة في جودة الترجمة، المقاسة بمقاييس BLEU القياسية، مع تدريب أسرع بشكل ملحوظ. في إعداد الخطوتين (إشارة→غلوص→نص)، يقدم درجات مماثلة أو أفضل قليلًا من المحول الكلاسيكي لكنه يقلل زمن التدريب بحوالي خُمس في المتوسط. في إعداد الإشارة→نص المباشر الأكثر صعوبة، يتفوق ADAT بوضوح على نماذج المحول المعتمدة على المُشفّر فقط أو المُفكِّك فقط أو النماذج الموحدة، غالبًا بتحسين الدقة بحوالي نقطة مئوية أو أكثر، ومجدّدًا مع تقليص زمن التدريب بحوالي 20%. يُظهر التحليل التفصيلي للرياضيات الأساسية أن انتباه ADAT الأكثر انتقائية وتصميمه ذي المسارين يقللان عدد العمليات المطلوبة بشكل كبير، خاصة عند التعامل مع فيديوهات طويلة أو ذات معدل إطارات مرتفع.

Figure 2
الشكل 2.

بيانات جديدة للمحادثات الحرجة

لكي تضمن هذه الطرق انتشارها خارج بيئات المختبر، يقدم المؤلفون MedASL، أول مجموعة بيانات لغة إشارة أمريكية تُركّز على التواصل الطبي. تتألف من 500 جملة فريدة مصممة بعناية تحاكي تفاعلات واقعية بين المرضى ومقدمي الرعاية الصحية وتشمل شروحًا بالغلوص والنص. يكتسب هذا التوجه الطبي أهمية لأن سوء الفهم في المستشفى أو العيادة قد تكون له عواقب خطيرة، ونادرًا ما تغطي مجموعات البيانات الموجودة هذا النطاق. يقدم ADAT أداءً قويًا على MedASL، رغم أن النتائج تكشف أيضًا مدى صعوبة تعميم أي نظام بشكل مثالي إلى جمل جديدة في العالم الحقيقي.

ماذا يعني هذا لحياة الناس اليومية

بعبارات بسيطة، تُظهر الدراسة أنه يمكننا بناء أنظمة ترجمة لغة الإشارة تكون أذكى وأكثر اقتصادًا: تحتاج إلى وقت وموارد حسابية أقل للتدريب، ومع ذلك تلتقط بشكل أفضل دقّة الإشارات. ADAT ليس بعد مترجمًا جاهزًا يعمل في كل لغة إشارة وفي كل موقف، ولا يزال متخلفًا عن النماذج التي تعتمد على تدريبات مسبقة ضخمة. لكن بالتركيز على أنماط الفيديو الحساسة للزمن والكفاءة، يشير إلى طريقٍ نحو أدوات عملية قد تعمل يومًا على الأجهزة اليومية، وتدعم عدة لغات إشارة، وتساعد المستخدمين الصم على التواصل بسهولة أكبر في مواقفٍ حرجة مثل الرعاية الصحية، والاستجابة للطوارئ، والخدمات العامة.

الاستشهاد: Shahin, N., Ismail, L. ADAT novel time-series-aware adaptive transformer architecture for sign language translation. Sci Rep 16, 6551 (2026). https://doi.org/10.1038/s41598-026-36293-9

الكلمات المفتاحية: ترجمة لغة الإشارة, المحول المتكيّف, انتباه السلاسل الزمنية, ASL الطبي, الذكاء الاصطناعي الميسّر