Clear Sky Science · ar

Sign4all: مجموعة بيانات لغة الإشارة الإسبانية

· العودة إلى الفهرس

أيدٍ تتكلّم إلى الآلات

يعتمد ملايين الأشخاص حول العالم على لغات الإشارة كوسيلة رئيسية للتواصل، ومع ذلك لا تزال معظم التطبيقات والأجهزة الحالية «تستمع» إلى الكلام المنطوق فقط. لسد هذه الفجوة، تحتاج الحواسيب إلى مجموعات كبيرة ومصمَّمة بعناية من مقاطع فيديو لغة الإشارة لتتعلم منها. يعرض هذا المقال Sign4all، مجموعة بيانات جديدة للغة الإشارة الإسبانية بُنيت لمساعدة الهواتف وأجهزة الكمبيوتر والأجهزة العامة في المستقبل على فهم الإشارات اليومية بشكل أكثر عدلاً ودقّة.

Figure 1
Figure 1.

لماذا هناك حاجة لبيانات جديدة للغة الإشارة

تحسّنت المساعدات الصوتية بسرعة لأنها تدربت على مجموعات صوتية هائلة. لم تحظَ لغات الإشارة بنفس هذا التقدّم. غالبًا ما تحاول مجموعات بيانات الإشارة الحالية تغطية آلاف الكلمات المختلفة لكنها تعرض كل كلمة مرات قليلة فقط. هذا يجعل من الصعب على الحاسوب تعلم كيف يمكن أن تظهر نفس الإشارة بشكل مختلف قليلاً بين الأشخاص، أو حسب الملابس، السرعة أو زاوية الكاميرا. كما تسجّل العديد من المجموعات الإشارات بيد اليمنى فقط، رغم أن شريحة كبيرة من السكان تُشير باليد اليسرى أو تستخدم اليدين معًا. ونتيجة لذلك، قد تفشل الأنظمة المتدربة على هذه البيانات عند مواجهة موقّعين يساريي اليد أو تغيّرات حركية طفيفة.

مفردات مركّزة من الحياة اليومية

بدلاً من السعي إلى الاتساع المطلق، تتبنّى Sign4all نهج «قليل لكن عميق». سجّل المؤلفون 24 إشارة شائعة في لغة الإشارة الإسبانية مرتبطة بتناول الطعام خارج المنزل والوجبات اليومية: ضمائر مثل «أنا» و«أنت»، عناصر طعام مثل اللحم، السمك والحساء، أدوات مثل الملعقة والشوكة، وكلمات استفهامية من قبيل «ماذا»، «أين» و«متى». لكل إشارة، هناك في المتوسط أكثر من 300 مقطع فيديو عالي الدقّة، ما يمنح خوارزميات التعلم أمثلة عديدة على كيفية تباين كل إيماءة. كما اختيرت المفردات بحيث يمكن جمع الإشارات لتشكيل جمل قصيرة، مثل «أنا لا أحب اللحم» أو «أنا آكل لحمًا وبيضًا على الإفطار»، مما يتيح للباحثين استكشاف تمييز العبارات البسيطة في المستقبل.

بناء توازن بين اليسار واليمين

كان من قرارات التصميم الأساسية اعتبار التوقيع باليد اليسرى واليمنى بنفس القدر من الأهمية. سُجّل ثمانية متطوعين (أربع نساء وأربعة رجال) في مختبر باستخدام كاميرا عالية الجودة. أداء كل منهم لكل إشارة أحادية اليد أو الإشارات ثنائية اليد غير المتماثلة تمّ تسجيله بكل من اليد المسيطرة وغير المُسيطرة. وسُجلت الإشارات الثنائية المتماثلة بتكرارات إضافية بحيث تنتهي كل فئة إشارة بعدد مقاطع متقارب. بعد عملية قطع يدوية دقيقة، تتضمن المجموعة النهائية 7,756 فيديو، مقسومة تقريبًا بالتساوي بين أداءات باليد اليسرى واليمنى. يتيح هذا التوازن لأنظمة التعرُّف المستقبلية أن تتعلم تجاهل أي يد تقود الحركة والتركيز بدلًا من ذلك على نمط الإشارة نفسه.

Figure 2
Figure 2.

تحويل الفيديوهات الغنية إلى بيانات حركة نظيفة

عُولجت التسجيلات لجعلها مفيدة قدر الإمكان لتعلّم الآلة. قُصّ كل فيديو ليحتوي فقط على الإشارة الفعلية، وليس حركة الانتقال إلى الوضع أو الخروج منه. تم توحيد كل المقاطع إلى 48 إطارًا — طول كافٍ لالتقاط إيماءة نموذجية — حتى لا تتمكن النماذج من الغش باستخدام طول المقطع للتكهّن بالكلمة. قُطِعت الصور حول المؤدي لإزالة السقف والأرضية مع الحفاظ على الشكل الجسماني الطبيعي، متجنبة التشويه الذي قد يحدث إذا أعيد تغيير حجم اللقطات المستطيلة الخام بشكل عشوائي. بالإضافة إلى الفيديوهات الملونة، استخدم الفريق أداة تتبّع الوضع لاستخراج مواقع المفاصل الرئيسية في الجزء العلوي من الجسم والأصابع، مبنيين وصفًا مدمجًا على شكل «هيكل عظمي عصي» إطارًا بإطار. تُخزّن هذه الهيكليات بصيغ علمية مستخدمة على نطاق واسع حتى يمكن وصلها مباشرة ببرمجيات التعلم العميق الحديثة.

تعليم الحواسيب بالتباين لا بالكمال

تكون البيئات الواقعية فوضوية: الناس يرتدون ملابس مختلفة، يتغير الإضاءة خلال اليوم، وتهتز الكاميرات قليلًا. لمساعدة الأنظمة على التعامل مع هذا التباين، أنشأ المؤلفون نسخًا إضافية مُعالجة مسبقًا من مجموعة البيانات. بعض المقاطع عُكست يسارًا-ليمينًا لمحاكاة اليد المعاكسة؛ وأخرى اُعتِيِلَت بتغييرات طفيفة في السطوع، اللون، الطمس أو الدوران، دون الإضرار بمعنى الإشارة. رفع ذلك إجمالي عدد العينات إلى أكثر من 60,000. أظهرت اختبارات مع نموذج Transformer معتمد على الفيديو — نوع حديث من الشبكات العصبية — أن التدريب بهذه البيانات المعزّزة حسّن الأداء التمييزي بشكل حاد. كما وصل نموذج أبسط مدرّب فقط على بيانات الحركة الهيكلية إلى دقّة عالية، مما يبرهن أن مجموعة البيانات تلتقط المعلومات الجوهرية اللازمة لتمييز الإشارات المتشابهة.

ماذا يعني هذا للتقنية الشاملة

بالنسبة للقارئ العام، رسالة Sign4all واضحة: كلما كانت مادة التدريب التي نقدّمها لآلاتنا أفضل وأكثر عدالة، كانت قدرتها على فهم الموقّعين أفضل. من خلال تقديم آلاف الأمثلة المتوازنة وعالية الجودة من إشارات إسبانية يومية — إلى جانب أوصاف حركة جاهزة للاستخدام وتقسيمات تدريب معيارية — تمهّد هذه المجموعة الطريق لأنظمة تمييز لغة إشارة أكثر موثوقية. مع مرور الوقت، يمكن لأدوات من هذا النوع أن تدعم الترجمة الفورية بالنص، وتجعل الخدمات العامة أكثر وصولًا، وتسهل التواصل بين المجتمعات الصمّاء والسامعة، مساعدةً في ضمان أن تستمع التكنولوجيا الرقمية إلى الأيدي بقدر ما تستمع إلى الأصوات.

الاستشهاد: Morillas-Espejo, F., Martinez-Martin, E. Sign4all: a Spanish Sign Language dataset. Sci Data 13, 502 (2026). https://doi.org/10.1038/s41597-026-06872-6

الكلمات المفتاحية: التعرُّف على لغة الإشارة, لغة الإشارة الإسبانية, مجموعات بيانات الإيماءات, تقنية مساعدة, تعلم الآلة