Clear Sky Science · ar

UncerTrans: محول زمني واعٍ بعدم اليقين للتنبؤ المبكر بالأفعال

2026-02-03 · العودة إلى الفهرس

لماذا رؤية الأفعال مبكرًا يمكن أن تحمينا

تخيل روبوتًا منزليًا يستطيع أن يميز، من مجرد أول حركة للمعصم، ما إذا كان شخص ما على وشك صب ماء ساخن بأمان في كوب أم أنه سيطيح بالغلاية عن طريق الخطأ. في المصانع والمستشفيات والمنازل الذكية، تتشارك الآلات المساحات مع البشر باستمرار، والردّ بعد بدء الحادث يكون متأخرًا جدًا. تقدم هذه الورقة UncerTrans، نظامًا ذكاءً اصطناعيًا جديدًا لا يتنبأ فقط بما من المرجح أن يفعله الشخص بناءً على بداية الفعل فحسب، بل يخبرنا أيضًا بمدى ثقته في تخمينه — قدرة حاسمة عندما تكون سلامة الإنسان على المحك.

من المراقبة إلى التنبؤ بأفعال البشر

تعترف معظم أنظمة الرؤية الحاسوبية الحالية بما يفعله شخص ما فقط بعد أن يوشك الفعل على الانتهاء: فهي تصنف مقطع فيديو كاملًا على أنه «تقطيع خضروات» أو «التقاط كوب». هذا مفيد للتحليل اللاحق، لكنه لا يساعد في منع الحروق أو التصادمات أو السقوط. يواجه التنبؤ المبكر بالأفعال مشكلة أصعب: تحديد أي فعل كامل سيحدث بعد رؤية 10–20% منه فقط. التحدي أن العديد من الأفعال تبدو متشابهة في بدايتها — الوصول نحو الغلاية قد يعني صب مشروب أو إمساكها بطريق الخطأ — لذا يجب على النظام العمل بمعلومات قليلة مع تجنب الأخطاء الخطيرة.

تعليم الآلة أن تركز على اللحظات المناسبة

يعالج UncerTrans هذا باستخدام محول زمني، وهو بنية شبكات عصبية حديثة طورت أصلاً للغة. بدلًا من قراءة كلمات في جملة، ينظر إلى مقاطع قصيرة من الفيديو عبر الزمن. يكسر النموذج تسلسل الفعل المبكر إلى عدد من المقاطع ويستخدم آلية اهتمام ليقرر أي اللحظات هي الأهم. تُعطى الإطارات الأحدث وزنًا إضافيًا، مما يعكس حدسنا بأن الحركة الأخيرة تكشف عادة عن النية الأوضح. يتيح هذا التصميم للنظام التقاط كلٍ من التفاصيل الدقيقة، مثل حركة الأصابع، والأنماط الأوسع، مثل مسار الذراع، حتى عندما يرى جزءًا بسيطًا من الفعل الكامل.

جعل الآلة تعترف عندما تكون غير متأكدة

ابتكار رئيسي في UncerTrans هو أنه لا يكتفي بإجابة قاطعة واحدة. بل يشغل نفس الإدخال عبر الشبكة مرات عديدة مع اختلافات طفيفة باستخدام تقنية تُسمى إسقاط مونت كارلو (Monte Carlo dropout). كل تشغيل يوقف اتصالات داخلية مختلفة عشوائيًا، ما ينتج تنبؤًا مختلفًا قليلًا. من خلال النظر إلى مدى اختلاف هذه التنبؤات، يستطيع النظام تقدير عدم اليقين الخاص به: التنبؤات المجمعة بإحكام تشير إلى ثقة عالية، بينما التنبؤات المتفرقة تشير إلى شك. يفرّق UncerTrans كذلك بين عدم اليقين الناجم عن قلة الخبرة التدريبية والضوضاء في الفيديو نفسه، ويضبط عدد مرات الاختبار تلقائيًا — يستخدم المزيد عندما تبدو العينات الأولى غامضة وأقل عندما تتوافق بالفعل.

تحويل الثقة إلى قرارات أكثر أمانًا

معرفة متى قد تكون مخطئًا لا تفيد إلا إذا غيرت سلوكك. يحول UncerTrans تقديرات الثقة إلى اختيارات عملية. بالنسبة للتنبؤات ذات عدم اليقين المنخفض، يمكن للنظام أن يتصرَّف بحسم — مثل إرسال تحذير أو تحريك ذراع روبوت بعيدًا عن الخطر. عندما يكون عدم اليقين متوسطًا، يمكنه اختيار سلوكيات محافظة أكثر، مثل إبطاء الروبوت أو طلب مزيد من المعلومات. إذا كان عدم اليقين مرتفعًا جدًا، يمكنه رفض اتخاذ قرار تمامًا والاستمرار في المراقبة. تُظهر الاختبارات على مجموعة كبيرة من مقاطع الفيديو «من منظور الشخص الأول» في المطبخ أن UncerTrans يتنبأ بالأفعال القادمة بدقة أكبر من عدة بدائل قوية، خاصة عندما يكون مرئيًا فقط أول 10% من الفعل. من الجدير بالذكر أنه عندما يتخلص النظام من أكثر 30% حالات عدم اليقين، ترتفع الدقة في التنبؤات المتبقية إلى نحو 84%، مما يبرهن على قيمة الفلترة الواعية بعدم اليقين.

ماذا يعني هذا للعمل الجماعي اليومي بين الإنسان والروبوت

لغير المتخصص، الرسالة بسيطة: UncerTrans خطوة نحو آلات لا تكتفي بتخمين حركتنا التالية من دلائل محدودة فحسب، بل تعرف أيضًا متى تكون تلك التخمينات جديرة بالثقة. من خلال الجمع بين نموذج رؤية حساس للزمن و«مقياس ثقة» داخلي، يمكن للنظام أن يتفاعل بسرعة وأمان أكبر في بيئات واقعية مزدحمة مثل المطابخ والمصانع ومرافق الرعاية. وبينما لا تزال الطريقة تتحمل تكاليف حسابية وستحتاج إلى مزيد من التحسين، فإنها تقدم مخططًا واعدًا لروبوتات وأنظمة مراقبة مستقبلية تتنبأ بالمخاطر مبكرًا، وتتصرّف بحذر عند عدم اليقين، وتندمج في النهاية بطريقة أكثر أمانًا في المساحات البشرية.

الاستشهاد: Zhai, X., Liu, Y. UncerTrans: uncertainty-aware temporal transformer for early action prediction. Sci Rep 16, 7068 (2026). https://doi.org/10.1038/s41598-026-38107-4

الكلمات المفتاحية: التنبؤ المبكر بالأفعال, تعاون الإنسان والروبوت, عدم اليقين في الذكاء الاصطناعي, نماذج المحول في الرؤية, أنظمة ذكية آمنة