Clear Sky Science · pl
LLM-DWA: hybrydowe planowanie ścieżek łączące duże modele językowe z podejściem Dynamic Window
Inteligentniejsze trasy dla codziennych robotów
Od odkurzaczy po wózki magazynowe — roboty mobilne stają się powszechne w domach i miejscach pracy. Nawet te zaawansowane urządzenia potrafią jednak utknąć w niewygodnych zakamarkach czy labiryntowych korytarzach. W pracy tej przedstawiono nowy sposób pomagania robotom w wyborze lepszych tras, łącząc szybkie, tradycyjne metody nawigacji z umiejętnościami rozumowania dużych modeli językowych — tej samej technologii, która napędza współczesne chatboty.

Dlaczego roboty zaplątują się w trudnych przestrzeniach
Większość robotów dzieli nawigację na dwa zadania. Planer globalny najpierw szkicuje przybliżoną trasę po mapie, a następnie planer lokalny reaguje na pobliskie ściany, meble i ludzi, korzystając z danych z czujników w czasie rzeczywistym. Powszechnie stosowana metoda lokalna, zwana podejściem Dynamic Window (DWA), szybko analizuje możliwe prędkości i skręty robota, by wybrać bezpieczny ruch krótkoterminowy. To działa dobrze na otwartych przestrzeniach, ale ma trudności w układach z przeszkodami w kształcie litery U lub ciasnymi labiryntami. W takich sytuacjach robot może kończyć, krążąc w martwym punkcie lub trzymając się ostrych narożników, tracąc czas lub w ogóle nie docierając do celu.
Polecenie modelom językowym myślenia o przestrzeni
Autorzy proponują dodanie dużego modelu językowego (LLM) jako wysokopoziomowego przewodnika nad istniejącym kontrolerem lokalnym. Zamiast bezpośrednio sterować robotem, LLM otrzymuje opis środowiska — albo jako współrzędne ścian, albo jako prosty obraz mapy — wraz z lokalizacjami startu i celu robota. Wykorzystując zdolności dopasowywania wzorców i rozumowania, LLM zwraca krótką listę pośrednich „punktów trasy” (waypoints), które prowadzą przez kluczowe szczeliny i wąskie gardła, takie jak drzwi czy zakręty korytarza. Znane podejście Dynamic Window zajmuje się potem drobniejszym ruchem od jednego punktu do następnego, korzystając z odczytów czujników w czasie rzeczywistym — zachowując bezpieczeństwo i reagowalność przy wykonywaniu szerszych wskazówek LLM.
Jak zbudowano i przetestowano hybrydowy planer
Zespół najpierw zweryfikował ten przepływ w prostym, dwuwymiarowym świecie kratowym, a następnie w realistycznym symulatorze trójwymiarowym z robotem TurtleBot3. Do LLM, dostępnego przez interfejs programistyczny, zastosowano starannie przygotowane zapytania (prompty), dzięki czemu zawsze zwracał on czyste listy punktów trasy. Kontroler niskiego poziomu pochodził ze standardowego oprogramowania robotycznego open source, co uczyniło projekt modułowym: w zasadzie różne modele językowe lub kontrolery lokalne można by podmieniać bez przeprojektowywania całego systemu.

Pokonywanie martwych punktów i skracanie czasu podróży
W serii testów hybrydowa metoda „LLM‑DWA” została porównana z typowymi bazami łączącymi globalny planer Dijkstry z albo podejściem Dynamic Window, albo z kontrolerem opartym na kosztownych optymalizacjach. W torze z przeszkodą w kształcie U sam planer lokalny nie osiągnął celu, a baza globalno‑lokalna kolidowała z narożnikami. Metoda z wykorzystaniem LLM wytworzyła natomiast punkty trasy, które poprowadziły robota gładko wokół pułapki i pozwoliły ukończyć trasę. W światach trójwymiarowych — w tym kopii układu w kształcie U, złożonym labiryncie i układzie przypominającym dom — nowe rozwiązanie często skracało czas podróży mniej więcej o połowę przy zachowaniu podobnej długości ścieżek i było jedyną metodą, która rozwiązała najtrudniejszy labirynt. Powtarzane próby wykazały, że mimo wbudowanej losowości modelu językowego, wskaźniki sukcesu i czasy podróży pozostawały stabilne.
Ograniczenia dziś i pole do rozwoju
To podejście nie jest pozbawione wad. Opisywanie zagraconych pomieszczeń modelowi językowemu wyłącznie za pomocą liczb lub jednego obrazu z góry może pominąć ważne szczegóły, co czasem prowadzi do wyznaczania punktów trasy wewnątrz przeszkód lub do niejednoznacznych ścieżek. Obecny system pyta LLM o punkty trasy tylko raz na początku, więc nie potrafi jeszcze przemyśleć trasy w trakcie jazdy, gdy pojawią się nieoczekiwane przeszkody. Autorzy sugerują, że ścisłe powiązanie percepcji, geometrii i języka — a także ponowne wywoływanie LLM w czasie nawigacji — mogłoby dodatkowo zwiększyć niezawodność.
Co to znaczy dla przyszłych pomocników-robotów
Podsumowując, badanie pokazuje, że modele językowe mogą działać jako swego rodzaju wysokopoziomowy „mózg nawigatora”, szkicując sensowne cele pośrednie, podczas gdy sprawdzone kontrolery niskiego poziomu dbają o bezpieczeństwo w każdym momencie. Łącząc rozumowanie z szerokiej perspektywy z szybkim, świadomym fizyki planowaniem ruchu, ten hybrydowy projekt pomaga robotom wydostać się z typowych pułapek i poruszać się wydajniej w trudnych przestrzeniach. W miarę jak multimodalne modele językowe będą coraz lepiej rozumieć mapy i sceny, takie moduły rozumujące mogą stać się standardową częścią odpornych i adaptowalnych systemów nawigacji robotów.
Cytowanie: Seo, J., Kim, E. & Choi, A.J. LLM-DWA: a hybrid path planning framework combining large language models with the dynamic window approach. Sci Rep 16, 9898 (2026). https://doi.org/10.1038/s41598-026-39524-1
Słowa kluczowe: nawigacja robotów, planowanie ścieżek, duże modele językowe, roboty mobilne, sterowanie hybrydowe