Clear Sky Science · ar

LLM-DWA: إطار تخطيط مسار هجيني يجمع بين نماذج اللغة الكبيرة ونهج النافذة الديناميكية

· العودة إلى الفهرس

مسارات أذكى للروبوتات اليومية

من المكانس الآلية إلى عربات المخازن، أصبحت الروبوتات المتنقلة شائعة في المنازل وأماكن العمل. ومع ذلك، يمكن حتى لهؤلاء المساعدين عاليي التقنية أن يعثروا في زوايا محرجة أو ممرات تشبه المتاهة. تقدم هذه الدراسة طريقة جديدة لمساعدة الروبوتات على اختيار مسارات أفضل من خلال الجمع بين طريقة ملاحة سريعة وتقليدية وقوة الاستدلال لنماذج اللغة الكبيرة، نفس التكنولوجيا وراء روبوتات الدردشة الحديثة.

Figure 1
الشكل 1.

لماذا تعلق الروبوتات في أماكن ضيقة

تقسم معظم الروبوتات مهمة التنقل إلى وظيفتين. يقوم المخطط العالمي أولاً برسم مسار تقريبي عبر الخريطة، ثم يتكفل مخطط محلي بالاستجابة للجدران والأثاث والأشخاص القريبين باستخدام بيانات المستشعرات الحية. طريقة محلية مستخدمة على نطاق واسع، تُسمى نهج النافذة الديناميكية، تفحص بسرعة سرعات الروبوت الممكنة ومنعطفاته لاختيار حركة قصيرة الأجل وآمنة. يعمل هذا جيداً في الفراغات المفتوحة لكنه يواجه صعوبات في التصميمات التي تحتوي على عقبات على شكل U أو متاهات ضيقة. في مثل هذه الحالات، قد ينتهي المطاف بالروبوت بالدوران داخل طريق مسدود أو ملاصقته زوايا حادة، مما يهدر الوقت أو يمنعه تماماً من الوصول إلى هدفه.

السماح لنماذج اللغة بالتفكير في الفضاء

يقترح المؤلفون إضافة نموذج لغة كبير (LLM) كمرشد عالي المستوى فوق المتحكم المحلي الموجود. بدلاً من توجيه الروبوت مباشرة، يتلقى نموذج اللغة وصفاً للبيئة—إما كإحداثيات للجدران أو كصورة خريطة بسيطة—جنباً إلى جنب مع مواقع بدء الروبوت وهدفه. باستخدام قدراته على مطابقة الأنماط والاستدلال، ينتج نموذج اللغة قائمة صغيرة من «نقاط العبور» الوسيطة التي تسنُّ عبر الفجوات والطُرق الضيقة الرئيسية، مثل الأبواب أو منعطفات الممرات. يتولى نهج النافذة الديناميكية المألوف بعد ذلك الحركة التفصيلية من نقطة عبور إلى أخرى باستخدام قراءات المستشعر في الزمن الحقيقي، محافظاً على السلامة والاستجابة السريعة أثناء اتباع التوجيه الأوسع لنموذج اللغة.

كيفية بناء المخطط الهجين واختباره

قام الفريق أولاً بالتحقق من هذه السلسلة في عالم شبكي ثنائي الأبعاد بسيط ثم في محاكي ثلاثي الأبعاد واقعي باستخدام روبوت TurtleBot3. تم الوصول إلى نموذج اللغة عبر واجهة برمجة تطبيقات، وقد مُنح مطالبات مصممة بعناية بحيث يعيد دائماً قوائم نظيفة من نقاط العبور. جاء المتحكم منخفض المستوى من برمجيات روبوتية مفتوحة المصدر قياسية، مما يجعل التصميم الكلي معياريًا: من حيث المبدأ، يمكن استبدال نماذج لغة مختلفة أو متحكمات محلية دون إعادة تصميم النظام بأكمله.

Figure 2
الشكل 2.

التغلب على الطرق المسدودة وتقليص زمن السفر

عبر سلسلة من الاختبارات، قورنت طريقة «LLM‑DWA» الهجينة مع الأساسيات الشائعة التي تُزاوج مخطط ديكسترا العالمي إما مع نهج النافذة الديناميكية أو مع متحكم يعتمد على الأمثلية المكثفة. في مسار به عقبات على شكل U، فشل المخطط المحلي البسيط في الوصول إلى الهدف، واصطدمت القاعدة العالمية‑بالإضافة‑إلى‑المحلي بالزوايا. بالمقابل، أنتجت الطريقة الموجهة بنموذج اللغة نقاط عبور قادت الروبوت حول الفخ بنظافة وأكملت المسار. في العوالم ثلاثية الأبعاد—بما في ذلك نسخة من الشكل U، ومتاهة معقدة، وتصميم شبيه بمنزل—خفض الإطار الجديد غالباً زمن السفر تقريباً إلى النصف مع الحفاظ على أطوال مسار مماثلة، وكان هو الطريقة الوحيدة التي حلت المتاهة الأكثر تعقيدًا. أظهرت التجارب المتكررة أنه، على الرغم من العشوائية المدمجة في نموذج اللغة، ظلت معدلات النجاح وأزمنة السفر مستقرة.

القيود الحالية ومساحة للتطور

النهج ليس خالياً من العيوب. قد يُفوِّت وصف غرف مزدحمة لنموذج اللغة باستخدام أرقام فقط أو صورة علوية واحدة تفاصيل مهمة، مما يؤدي أحياناً إلى وضع نقاط عبور داخل عقبات أو مسارات غامضة. كما يطلب النظام الحالي من نموذج اللغة نقاط العبور مرة واحدة فقط في البداية، لذا لا يستطيع بعد إعادة التفكير في المسار أثناء التشغيل عند ظهور عقبات غير متوقعة. يجري المؤلفون إلى أن الربط الأوثق بين الإدراك والهندسة واللغة—وكذلك استدعاء نموذج اللغة مرة أخرى أثناء الملاحة—يمكن أن يعزز الموثوقية أكثر.

ما الذي يعنيه هذا لمساعدي الروبوتات في المستقبل

بشكل عام، تُظهر الدراسة أن نماذج اللغة يمكن أن تعمل كنوع من «دماغ الملاح» عالي المستوى، يرسم أهدافاً وسيطة معقولة بينما تحافظ المتحكمات منخفضة المستوى المثبتة على سلامة الروبوت لحظة بلحظة. من خلال الجمع بين التفكير الشمولي السريع وتخطيط الحركة الواعي بالفيزياء، يساعد هذا التصميم الهجين الروبوتات على الخروج من الفخاخ الشائعة والتحرك بكفاءة أكبر عبر المساحات الصعبة. ومع تحسن نماذج اللغة متعددة الوسائط في فهم الخرائط والمشاهد، قد تصبح مثل هذه وحدات الاستدلال جزءًا معيارياً من أنظمة تنقل روبوتية قوية وقابلة للتكيف.

الاستشهاد: Seo, J., Kim, E. & Choi, A.J. LLM-DWA: a hybrid path planning framework combining large language models with the dynamic window approach. Sci Rep 16, 9898 (2026). https://doi.org/10.1038/s41598-026-39524-1

الكلمات المفتاحية: تنقل الروبوت, تخطيط المسار, نماذج لغة كبيرة, الروبوتات المتنقلة, التحكم الهجين