Clear Sky Science · ar

طريقة تقدير وضعية إيماءات اليد ثلاثية الأبعاد تعتمد على سِوين ترانسفورمر وشبكة عصبية تلافيفية

· العودة إلى الفهرس

أيدٍ تتحدث إلى الآلات

تخيل أن تتحكم في حاسوب أو لوحة قيادة سيارة أو عالم واقع افتراضي بمجرد تحريك يديك في الهواء. لكي يبدو ذلك طبيعياً، يجب أن تعرف الآلات بدقة موقع كل مفصل من مفاصل الأصابع في الفراغ ثلاثي الأبعاد، حتى عندما تكون أجزاء من اليد مخفية أو الإضاءة ضعيفة. تعرض هذه الورقة طريقة جديدة لقراءة وضعيات اليد من كاميرات العمق بدقة أعلى، مما يقرب التفاعل الخالي من اللمس والسلس خطوة أقرب إلى الاستخدام اليومي.

Figure 1
الشكل 1.

لماذا قراءة اليد صعبة للغاية

يعني تقدير وضعية اليد إيجاد مواقع المفاصل الرئيسية في اليد ثلاثية الأبعاد من بيانات الكاميرا. وهذا أكثر تعقيداً مما يبدو. تنثني الأصابع وتلتوي وتتداخل، وتختلف أشكال وأحجام الأيادي من شخص لآخر. العديد من الطرق الحالية تنظر فقط إلى دلائل بصرية محدودة أو تركز على مناطق صغيرة، فتفشل في التقاط كيف تتحرك اليد ككل. كما تجد صعوبة في التقاط العلاقات بعيدة المدى بين المفاصل، مثل كيفية تعاون الإبهام والسبابة عند الإمساك بجسم. تؤدي هذه الثغرات في الفهم إلى أخطاء أكبر وأداء غير موثوق في مواقف العالم الحقيقي مثل الواقع الافتراضي أو التعرف على لغة الإشارة.

رؤية جديدة ذات مسارين لليد

يقترح المؤلفون نظاماً يأخذ صور العمق — صور يُرمز فيها لكل بكسل بمقدار المسافة إلى الكاميرا — ويحوّلها إلى هياكل عظمية ثلاثية الأبعاد دقيقة لليد. أولاً، تستخرج شبكة عصبية تلافيفية تقليدية ميزات بصرية تقريبية من صورة العمق المدخلة. ثم تتدفق المعلومات إلى فرعين متوازيين. يستخدم أحد الفروع شبكة على شكل حرف U للاحتفاظ بالتفاصيل الدقيقة عبر مقاييس صورة متعددة، محافظاً على هياكل صغيرة مثل مفاصل الأصابع الفردية. أما الفرع الآخر فيستخدم بنية أحدث تُسمى Swin Transformer، التي تتفوق في التقاط العلاقات بين مناطق بعيدة في الصورة. عبر تشغيل الفرعين معاً ثم دمج مخرجاتهما، يتعلم النموذج كل من التفاصيل المحلية لكل مفصل والتنظيم العام لليد.

Figure 2
الشكل 2.

خرائط حرارية تبرز مفاصل الأصابع

لمساعدة الشبكة على تعلم أماكن وجود المفاصل المحتملة، يضيف الباحثون تمثيلاً وسيطاً يُدعى الخريطة الحرارية. لكل مفصل، يولّدون بقعة ناعمة ومتوّهجة في خريطة ثنائية الأبعاد ذروتها تشير إلى الموقع الأكثر احتمالاً لذلك المفصل، بينما تتلاشى البكسلات المجاورة تدريجياً. أثناء التدريب، يُطلب من النموذج ليس فقط التنبؤ بالإحداثيات الثلاثية الأبعاد النهائية لكل مفصل، بل أيضاً مطابقة هذه الخرائط الحرارية. هذا الإشراف المزدوج يوجه الشبكة للانتباه إلى البنية المكانية في الصورة والروابط الطبيعية بين المفاصل المجاورة. كما يحسّن قدرة النظام على التعميم عبر أشخاص ووضعيات يدوية مختلفة.

بيانات جديدة ودقة أفضل

لاختبار نهجهم، يجمع المؤلفون مجموعة بيانات مرجعية معروفة من Microsoft Research Asia مع مجموعة جديدة من صور العمق التي سجلوها باستخدام جهاز ليدار. تضيف مجموعة البيانات الخاصة بهم حالات صعبة مثل أيادٍ صغيرة وبعيدة وإيماءات متنوعة، لتعكس سيناريوهات استخدام واقعية بشكل أفضل. تُقارن الطريقة بعدة أنظمة شائعة لتقدير وضعية اليد. في المتوسط، يقلل النموذج الجديد الخطأ في مواضع المفاصل بمقدار يصل إلى بضعة مليمترات مقارنة بهؤلاء المنافسين، مع الاستمرار في العمل بسرعات مناسبة للتشغيل في الزمن الحقيقي أو قرب الزمن الحقيقي. تُظهر التجارب التفصيلية أن كل مكوّن رئيسي — النمذجة العالمية بواسطة Swin Transformer، الميزات المحلية متعددة المقاييس من شبكة على شكل U، والإشراف بالخرائط الحرارية — يساهم بشكل ملموس في الدقة النهائية.

ماذا يعني هذا للتفاعل اليومي

بعبارات بسيطة، تُظهر الدراسة أن السماح للخوارزمية برؤية كل من "الصورة الكبيرة" لليد بأكملها والتفاصيل الصغيرة لكل إصبع، وتدريبها باستخدام خرائط حرارية تُبرز مواقع المفاصل المحتملة، يؤدي إلى تتبع أكثر موثوقية لحركة اليد ثلاثية الأبعاد. تجعل هذه الدقة والصلابة المحسنتان من الأسهل بناء أنظمة تحكم بالإيماءات تعمل عبر مستخدمين وظروف إضاءة ووضعيات معقّدة، سواء للواقع الافتراضي أو لوحات القيادة الذكية أو أدوات التعاون عن بُعد. ومع أن الطريقة لا تزال بحاجة إلى توسيعها لتشمل حالات أكثر تعقيداً حيث تتفاعل الأيدي عن قرب مع الأجسام، فإنها تمثل خطوة قوية نحو آلات تستطيع قراءة حركات أيدينا بسلاسة كما نستخدمها.

الاستشهاد: Dang, R., Feng, G. Hand gesture 3D pose estimation method based on swin transformer and CNN. Sci Rep 16, 11551 (2026). https://doi.org/10.1038/s41598-026-41974-6

الكلمات المفتاحية: تقدير وضعية اليد, التعرّف على الإيماءات, تصوير العمق, شبكات الترانسفورمر, التفاعل بين الإنسان والحاسوب