Clear Sky Science · ar

التحكم غير الخطي التكيفي الضبابي متعدد المدخلات متعدد المخرجات للروبوتات متعددة الأجسام الصلبة المترابطة باستخدام نموذج التعلم المعزز

2026-02-28 · العودة إلى الفهرس

روبوتات تتعلم أثناء العمل

تنتقل الروبوتات من خطوط المصانع المحاطة بالسياجات إلى المستشفيات والمستودعات وحتى منازلنا. في هذه البيئات الفوضوية تتغير الحِمول، والأسطح ليست مستوِية تمامًا، وقد يصطدم بها الناس. تستكشف هذه الورقة نهجًا جديدًا لمنح الروبوتات متعددة المفاصل — مثل الأذرع والآلات السائرة — القدرة على الحفاظ على حركاتها انسيابية ودقيقة ومستقرة حتى عندما يكون العالم من حولها غير متوقع وأجسامها تتغير مع الوقت.

لماذا يفشل التحكم التقليدي للروبوتات

تشبه وحدات التحكم الكلاسيكية في الروبوتات نظام التحكم التلقائي بالسرعة في السيارة الذي يفترض أن الطريق دائمًا جاف ومستوٍ. فهي تعتمد على نماذج رياضية مفصّلة لكل مفصل وتروس وقوة. في الواقع، يتغير سلوك الروبوت مع حمله لأغراض مختلفة، أو سخونة مفاصله، أو عند ملاقاته مطبات وصدّمات. بالنسبة للروبوتات ذات المفاصل الكثيرة والاقتران القوي بينها، يصبح كتابة نموذج مثالي أمرًا يكاد يكون مستحيلًا. ونتيجة لذلك، كثيرًا ما تهدر مخططات التحكم أحادية الحلقة التقليدية وحتى نظم الحلقات المتعددة المتقدمة الطاقة، تتصرف ببطء، أو تفقد الدقة في مواجهة تغيّر الأحمال والاضطرابات.

"دماغ" تحكّم يتعلّم للروبوتات كثيرة المفاصل

لمعالجة ذلك، يقترح الباحثون إطار تحكّم خالٍ كليًا من النموذج مصمّمًا للروبوتات ذات المفاصل المتعددة التي تؤثر على بعضها البعض. بدلًا من الاعتماد على معادلات دقيقة، يمزج المتحكم ثلاث أفكار: المنطق الضبابي الذي يترجم بسلاسة مفاهيم غامضة مثل «بعيد قليلًا» أو «يتحرّك بسرعة زائدة» إلى إجراءات تحكم؛ والتعلّم المعزز الذي يسمح للروبوت بتحسين قراراته بمرور الوقت بالتجربة والخطأ؛ وطريقة بحث مستوحاة من الطبيعة تُسمى خوارزمية تحسين نجوم البحر، التي تساعد في اختيار إعدادات بداية جيدة قبل أن يتحرك الروبوت. بالإضافة إلى ذلك، يضاف مصطلح خاص «زمني النهاية» بحيث لا تتضاءل أخطاء التتبّع فقط مع الوقت، بل تُجبر على الانخفاض ضمن نافذة زمنية قصيرة مضمونة.

كيف يعمل أسلوب التحكم الجديد

يراقب المتحكم مدى بُعد كل مفصل عن الزاوية المرغوبة ومعدل تغير هذا الخطأ. تُمرَّر هذه الإشارات عبر قواعد ضبابية — مجموعات من عبارات «إذا... فا...» المتداخلة التي تستطيع التعامل مع اللايقين واللاخطية — لإنتاج أمر عزم سلس للمحركات. يجلس التعلم المعزز في الخلفية ويضبط معلمات القواعد الضبابية على الخط مباشرة، مكافئًا الإجراءات التي تقلّل الأخطاء بسرعة ومعاقبًا تلك التي تسبب تجاوزًا أو اهتزازًا. يعمل مُحسِّن نجوم البحر في مرحلةٍ سابقة، في طور غير متصل، بحثًا عن مجموعة معلمات ضبابية أولية جيدة عن طريق تقليد كيفية استكشاف نجوم البحر وصقل مواضعها في البحر. تُسرِّع هذه البداية الجيدة التعلم عند تشغيل الروبوت، بينما يقدِّم مصطلح التصحيح الزمني القوي دفعة غير خطية تدفع الأخطاء نحو الصفر تقريبًا في زمن محدود، حتى عندما تتغير كتلة الروبوت أو بيئته فجأة.

الاختبار على أذرع وسيقان محاكاة

لاختبار الفكرة، استخدم الباحثون نماذج حاسوبية لروبوتين. الأول نظام بسيط ذو مفصلين يُستخدم عادةً لمحاكاة ساق مشي، حيث يُترك أحد المفاصل عمدًا بدون تحكّم محركي مباشر ليمثّل حالة ناقصة الفعالية وأكثر صعوبة في التحكم. الثاني ذراع من خمسة مفاصل شبيهة بطرف بشري خفيف الوزن. في كلتا الحالتين كانت الحركات المطلوبة للمفاصل مسارات ناعمة متموجة، بينما تم تغيير كتل الروابط عشوائيًا مع الزمن باستخدام عملية إحصائية تحاكي أحمالًا متغيرة ببطء وواقعية. أضيفت أيضًا اضطرابات إضافية، مثل دفعات عشوائية وحدود على العزم، لوضع المتحكم تحت ضغط.

ما أظهرته المحاكاة

عبر تجارب عديدة حافظ المتحكم الجديد على متابعة دقيقة لمفاصل الروبوت لمساراتها المرغوبة، مع أخطاء زاوية نهائية عادة في حدود نحو 0.02 إلى 0.04 راديان — أي بضعة مليمترات فقط عند أطراف ذراع. مقارنةً بتحكم النسبة–التكامل–التفاضل (PID) التقليدي وطرق تكيفية أكثر تقدمًا، خفّض الأسلوب المقترح إجمالي خطأ التتبّع بما يصل إلى نحو 60٪ للنظام ذي المفصلين وحوالي 30–35٪ لذراع المفاصل الخمسة. كما استقر المتحكم في حركة سلسة أسرع، غالبًا في أقل من ثانية ونصف، واستخدم نحو 15٪ طاقة تحكم أقل، ما يعني استهلاك طاقة أقل وتقليل اهتراء المحركات. حتى في اختبارات قصوى — مثل مضاعفة الكتلة الفعّالة مع تقليل العزم المتاح — حافظ المتحكم على حركة مستقرة وتجنّب التقلبات العنيفة.

ماذا يعني هذا للروبوتات اليومية

لغير المتخصصين، الرسالة الأساسية هي أن الروبوتات لا تحتاج إلى معرفة كل تفصيل من ميكانيكا أجسامها حتى تتحرك بثقة في عالم متغير. من خلال دمج التفكير الضبابي الشبيه بالبشر، والتعلم بالتجربة والخطأ، وخطوة معايرة ذكية مستوحاة من نجوم البحر، يتيح هذا المخطط التحكم للروبوتات متعددة المفاصل التكيّف مباشرة مع تغيّر الأحمال والاضطرابات مع ضمان تقلّص الأخطاء بسرعة. إذا تأكدت فعاليته على أجهزة فعلية، فقد تجعل هذه الطرق روبوتات الخدمة، والأجهزة المساعدة، والأذرع الصناعية الرشيقة أكثر أمانًا وكفاءة، حتى عند طلب مهام جديدة أو أدوات جديدة أو بيئات جديدة دون إعادة برمجة واسعة النطاق.

الاستشهاد: Duan, C., Wang, L. & Li, S. Fuzzy adaptive nonlinear MIMO control for rigid coupled multibody robots using reinforcement learning model. Sci Rep 16, 11458 (2026). https://doi.org/10.1038/s41598-026-40982-w

الكلمات المفتاحية: تحكم الروبوت, التعلّم المعزز, المنطق الضبابي, الروبوتات التكيفية, تتبّع المسار