Clear Sky Science · ar
دمج الالتفاف متعدِّد المقاييس وآليات الانتباه في HybridHAR للتعرُّف على الأنشطة البشرية بأداء عالٍ
لماذا يُهم تعليم الحواسيب الحركات اليومية
يومياً، تسجّل هواتفنا وساعاتنا وأجهزتنا الأخرى بهدوء كيف نتحرّك—سواء كنا نمشي، نصعد الدرج، أو نرتاح على الأريكة. قد يُحوّل تحويل إشارات الحركة الخام هذه إلى فهم موثوق للنشاط البشري طرق مراقبة الصحة ورعاية المسنين وإعادة التأهيل والمنازل الذكية. تقدم هذه الورقة HybridHAR، نموذجًا جديدًا مصمَّمًا لقراءة تلك الإشارات بدقة وكفاءة أعلى، ما يقربنا من أجهزة قابلة للارتداء تفهم ما نفعله في الوقت الفعلي.

فهم النشاط من حسّاسات الحركة
التعرُّف على الأنشطة البشرية هو مهمة استنتاج ما يفعله الشخص اعتمادًا على حسّاسات مثل مقياس التسارع والجيروسكوب داخل الهواتف الذكية والأجهزة القابلة للارتداء. اعتمدت الأنظمة السابقة على خبراء يصنّعون ميزات يدويًا من هذه الإشارات ثم يقدّمونها إلى خوارزميات تعلم آلي تقليدية. كان هذا النهج ناجحًا في بيئات المختبر المنظمة لكنه غالبًا ما يفشل في العالم الحقيقي الأكثر فوضى، حيث تكون الحركات أكثر تنوعًا وضوضاء. حسّن التعلُّم العميق الأمور باكتشاف الأنماط تلقائيًا في البيانات، ومع ذلك لا تزال التصاميم الشائعة تفوّت تفاصيل مهمة تتكشف عبر أطر زمنية مختلفة وقد تفقد معلومات مع تعمق الشبكات.
لماذا لا تزال النماذج العميقة الحالية تواجه صعوبات
تحدث الحركات البشرية عبر مقاييس زمنية متعددة في آن واحد: خطوة سريعة، مشي قصير عبر الغرفة، أو فترة طويلة من الجلوس. تركّز العديد من نماذج التعلم العميق إمَّا على قصاصات زمنية قصيرة أو على نطاقات أطول، ولكن ليس كلاهما بشكل متوازن. ومع إضافة طبقات أكثر لالتقاط أنماط معقَّدة، قد تعاني الشبكات من تلاشي إشارات التعلم، مما يجعل الطبقات المبكرة تتوقف عن التحسّن. كما أن بعض النماذج تفتقر إلى توجيه لطبقاتها الداخلية، لذا لا تتعلم عناصر بناء مفيدة على مستوى متوسط للتعرُّف على أنشطة تبدو متشابهة في الإشارات الخام، مثل الجلوس مقابل الوقوف.

تصميم هجيني ينظر إلى الحركة بعدة طرق
يقترح المؤلفون HybridHAR، نموذجًا مُهندَسًا بعناية يعالج هذه العيوب بثلاث أفكار رئيسية تعمل معًا. أولًا، بدلًا من استخدام منظور زمني واحد، يمرّر نفس إشارة الحساس عبر ثلاث مسارات معالجة موازية ينظر كل منها إلى أطوال زمنية مختلفة—من مقاطع قصيرة جدًا إلى مقاطع أطول إلى حد ما. تعمل هذه المسارات كمجمِّعات عدسات ثلاثية، تلتقط تفاصيل دقيقة للإيماءات السريعة وكذلك الاتجاهات الأبطأ في الوضعية والحركة. ثم تُدمَج مخرجاتها في تمثيل غني موحَّد يحافظ على المعلومات من كل هذه المقاييس.
الانتباه وتوجيه التعلم داخل أعمق أقسام النموذج
ثانيًا، يضيف HybridHAR وحدة انتباه خاصة على قمة هذا التمثيل المدموج. تتعلَّم هذه الآلية إبراز الأجزاء الأكثر دلالة من الإشارة—على سبيل المثال، الاختلافات الطفيفة في الحركة التي تميّز المشي صعودًا عن المشي هبوطًا—مع الاحتفاظ بمسار اختصاري يحفظ المعلومات الأصلية. يساعد هذا المسار "الاحتياطي" على تدفّق إشارات التعلم بسلاسة عبر الشبكة، مانعًا غسيل المعلومات في الطبقات العميقة. ثالثًا، يُزوَّد النموذج بمصنّف مساعد إضافي يصل إلى الميزات الوسيطة قبل تطبيق الانتباه. أثناء التدريب، يُقيَّم هذا المخرج المساعد أيضًا، مما يدفع الطبقات المبكرة بلطف إلى تعلم ميزات تكون جيدة بما يكفي لتخمين النشاط، وهو ما يثبّت ويسرّع عمليّة التعلم.
مدى أداء النهج الجديد
لاختبار HybridHAR، استخدم الباحثون مجموعة بيانات عامة واسعة الاعتماد حيث ارتدى المتطوعون هاتفًا ذكيًا أثناء أداء ستة أنشطة أساسية: ثلاثة أنواع من المشي بالإضافة إلى الجلوس والوقوف والاستلقاء. على هذا المؤشر القياسي، حقّق HybridHAR نحو 99% دقة على بيانات التحقق المحتجزة و96% دقة على مجموعة اختبار غير مرئية، متفوقًا على عدة بدائل قوية تشمل شبكات تلافيفية تقليدية، وشبكات تكرارية، ونماذج هجينة، ونهجًا قائمًا على التعلم المعزَّز. كان قويًا بشكل خاص في التمييز بين أنشطة المشي المتشابهة وقلّل الأخطاء بين أزواج مربكة مثل المشي صعودًا ونزولًا. أظهر الفريق أيضًا أن كلًّا من المكوّنات الثلاثة—المسارات متعددة المقاييس، والانتباه، والإشراف العميق—حسّنت النتائج بشكل ملحوظ، وأن النموذج الكامل حقق أداءً أفضل من أي نسخة تفتقد أحدها.
لماذا يهم هذا للأجهزة في العالم الحقيقي
رغم دقته العالية، يظل HybridHAR مضغوطًا وسريعًا، بعدد أقل بكثير من الإعدادات القابلة للتعديل مقارنة بالعديد من النماذج المنافسة، وبالقدرة على معالجة مئات نوافذ النشاط في الثانية مع استخدام ذاكرة يقارب ميغابايت واحدًا. عمومًا، تعمَّمت نتائجه جيدًا على مجموعة بيانات ثانية أكثر تعقيدًا تضم أنشطة أكثر وتكوينات حسّاسات أغنى، حيث أداء بشكل أفضل حتى. بالنسبة لغير المختصين، الخلاصة أن هذا التصميم يقدم مخططًا عمليًا لتحويل إشارات الأجهزة القابلة للارتداء المزعجة إلى أوصاف موثوقة ومفصَّلة لما يفعله الناس. يمكن لمثل هذه النماذج أن تجعل مستشعرات الصحة المستقبلية والمنازل الذكية وأنظمة السلامة أكثر موثوقية وأسهل في التشغيل على الأجهزة اليومية.
الاستشهاد: Huo, Y., Wei, C., Xu, Z. et al. Integrating multi-scale convolution and attention mechanisms in HybridHAR for high-performance human activity recognition. Sci Rep 16, 10143 (2026). https://doi.org/10.1038/s41598-026-40904-w
الكلمات المفتاحية: التعرُّف على الأنشطة البشرية, أجهزة الاستشعار القابلة للارتداء, التعلُّم العميق, آليات الانتباه, مراقبة الصحة