Clear Sky Science · ru
LLM-DWA: гибридная система планирования пути, объединяющая большие языковые модели и подход динамического окна
Более разумные маршруты для повседневных роботов
От роботов‑пылесосов до складских тележек — мобильные роботы становятся обычными помощниками в домах и на рабочих местах. Тем не менее даже эти высокотехнологичные устройства могут застревать в неудобных углах или в лабиринтоподобных коридорах. В этом исследовании предлагается новый способ помочь роботам выбирать лучшие маршруты, объединяя быстрый традиционный метод навигации с рассудительной силой больших языковых моделей — той же технологии, что лежит в основе современных чат‑ботов.

Почему роботы застревают в трудных пространствах
Большинство роботов разделяют навигацию на две задачи. Глобальный планировщик сначала набрасывает грубый маршрут по карте, а затем локальный планировщик реагирует на ближайшие стены, мебель и людей, используя данные живых датчиков. Широко используемый локальный метод, называемый подходом динамического окна, быстро оценивает возможные скорости и повороты робота, чтобы выбрать безопасное краткосрочное движение. Это хорошо работает в открытых пространствах, но испытывает трудности в планировках с U‑образными препятствиями или узкими лабиринтами. В таких случаях робот может начать кружить в тупике или цепляться за острые углы, теряя время или вообще не достигнув цели.
Дать языковым моделям возможность мыслить о пространстве
Авторы предлагают добавить большую языковую модель (LLM) в качестве высокоуровневого проводника поверх существующего локального контроллера. Вместо непосредственного управления движением LLM получает описание окружения — либо в виде координат стен, либо в виде простой карты — вместе с начальной и целевой точками робота. Используя свои навыки распознавания шаблонов и рассуждения, модель выдает небольшой список промежуточных «вех», которые проходят через ключевые разрывы и узкие места, например дверные проемы или повороты коридоров. Знакомый подход динамического окна затем обрабатывает детальные движения от одной вехи к другой с использованием данных датчиков в реальном времени, сохраняя безопасность и отзывчивость при следовании более широкому плану LLM.
Как был создан и протестирован гибридный планировщик
Команда сначала проверила этот конвейер в простом двумерном мире с сеткой, а затем в реалистичном трёхмерном симуляторе с роботом TurtleBot3. LLM, к которому обращались через интерфейс прикладного программирования, получала тщательно составленные подсказки, чтобы всегда возвращать аккуратные списки вех. Низкоуровневый контроллер взяли из стандартного открытого программного обеспечения для робототехники, что делает общую архитектуру модульной: по сути, можно заменить модель языка или локальный контроллер без полной переработки системы.

Преодоление тупиков и сокращение времени в пути
В серии тестов гибридный метод «LLM‑DWA» сравнивали с обычными базовыми схемами, которые сочетают глобальный планировщик Дейкстры с либо подходом динамического окна, либо с контроллером, требующим тяжёлой оптимизации. В маршруте с U‑образным препятствием простой локальный планировщик не смог достичь цели, а глобально‑плюс‑локальный базовый вариант сталкивался с углами. Метод с руководством LLM, напротив, генерировал вехи, которые аккуратно вели робота вокруг ловушки и завершали маршрут. В трёхмерных мирах — включая копию U‑образного препятствия, сложный лабиринт и планировку, похожую на дом — новая система часто сокращала время в пути примерно вдвое при сохранении схожей длины траектории, и она была единственным методом, сумевшим пройти самый сложный лабиринт. Повторные испытания показали, что, несмотря на встроенную случайность языковой модели, показатели успеха и время в пути оставались стабильными.
Ограничения сегодня и перспективы роста
Подход не лишён недостатков. Описание загромождённых помещений языковой модели только числами или одной обзорной картинкой может упустить важные детали, иногда приводя к размещению вех внутри препятствий или к неоднозначным путям. Текущая система также запрашивает вехи у LLM только один раз в начале, поэтому она пока не умеет передумывать маршрут в середине выполнения, когда возникают неожиданные препятствия. Авторы утверждают, что более тесная связь между восприятием, геометрией и языком — а также повторные обращения к LLM во время навигации — могут ещё больше повысить надёжность.
Что это значит для будущих робот‑помощников
В целом исследование показывает, что языковые модели могут выступать как некая высокоуровневая «навигационная мыслительная система», набрасывая разумные промежуточные цели, в то время как проверенные низкоуровневые контроллеры обеспечивают безопасность шага за шагом. Объединяя крупномасштабное рассуждение с быстрым, учитывающим физику планированием движений, эта гибридная схема помогает роботам выходить из типичных ловушек и двигаться эффективнее по сложным пространствам. По мере того как мультимодальные языковые модели становятся лучше в понимании карт и сцен, такие модули рассуждения могут стать стандартной частью надёжных и адаптивных систем навигации роботов.
Цитирование: Seo, J., Kim, E. & Choi, A.J. LLM-DWA: a hybrid path planning framework combining large language models with the dynamic window approach. Sci Rep 16, 9898 (2026). https://doi.org/10.1038/s41598-026-39524-1
Ключевые слова: навигация роботов, планирование маршрута, большие языковые модели, мобильные роботы, гибридное управление