Clear Sky Science · pl

Sterowanie sensoryczno-ruchowe z użyciem dużych modeli językowych poprzez iteracyjną poprawę polityki

· Powrót do spisu

Nauka samodzielnego poruszania się maszyn

Wyobraź sobie robota, który uczy się utrzymywać równowagę drążka, zamachnąć się i wyprostować wahadłem albo wyjechać z kotliny — bez tego, by inżynierowie szczegółowo programowali każdy ruch albo zbierali tysiące przykładów demonstracji. W artykule badane jest, jak duże modele językowe (LLM) — te same systemy wykorzystywane w chatbotach — mogą zostać przekształcone w „mózgi” projektujące i udoskonalające strategie sterowania takimi ruchomymi maszynami, opierając się głównie na opisach tekstowych i odrobinie prób oraz błędów.

Figure 1
Figure 1.

Z słów do ruchów

Tradycyjne sterowanie robotów często rozbija ruch na stałe bloki konstrukcyjne, takie jak zdefiniowane kroki chodu czy ruchy sięgania. Program wyższego poziomu wybiera i łączy te fragmenty. To działa w prostych sytuacjach, ale ma trudności tam, gdzie ruchy płynnie się łączą i wymagają precyzyjnego dopasowania w każdej chwili. Autorzy proszą zamiast tego LLM o stworzenie pełnych reguł sterowania, które bezpośrednio mapują dane z czujników robota — pozycję, prędkość, kąty itp. — na ciągłe sygnały do silników. Jedyną informacją początkową przekazaną modelowi jest opis w języku naturalnym budowy robota, jego czujników i napędów, otoczenia oraz celu, jaki ma osiągnąć.

Pętla refleksji i udoskonalania

Rdzeniem podejścia jest iteracyjna pętla uczenia, którą autorzy nazywają Iterative Policy Refinement. W pierwszym kroku LLM jest nakłaniany do przemyślenia problemu etapami: najpierw szkicuje strategię wysokiego poziomu w prostym języku, następnie przekształca ją w jasne reguły w stylu IF–THEN–ELSE, a na koniec konwertuje te reguły do wykonalnego kodu. Początkowy kontroler uruchamiany jest w symulowanym środowisku — na przykład w układzie wózka z drążkiem, który trzeba utrzymać pionowo — i mierzy się jego działanie. Istotne jest to, że krótkie fragmenty odczytów czujników robota i odpowiadających im działań są następnie podawane z powrotem do LLM wraz ze streszczeniem skuteczności strategii. LLM proszony jest o analizę tych śladów, wskazanie słabych stron i wygenerowanie poprawionego kontrolera. Cykl ten powtarza się wielokrotnie, stopniowo dopracowując zachowanie.

Figure 2
Figure 2.

Sprawdzenie pomysłu w praktyce

Aby ocenić skuteczność metody, badacze przetestowali ją na zestawie klasycznych zadań referencyjnych stosowanych w uczeniu przez wzmacnianie: utrzymanie równowagi w układzie wózek–drążek, zamachnięcie i ustabilizowanie wahadła, wjazd samochodem na stromą górę oraz zadanie acrobot, gdzie układ dwóch członów musi zostać zamachnięty do wymaganej wysokości. Zajęli się także odwróconym wahadłem z popularnego symulatora fizyki. Zadania te są na tyle proste, że można je szczegółowo badać, a jednocześnie odzwierciedlają kluczowe wyzwania: robot nie widzi wszystkiego naraz, nagrody pojawiają się z opóźnieniem, a dynamika może być wysoce niestabilna. Zespół porównał kilka nowoczesnych otwartych modeli językowych o rozmiarach rzędu 70–120 miliardów parametrów, zmieniał stopień losowości wyjść modelu i powtarzał każde doświadczenie wielokrotnie, by uzyskać wiarygodne statystyki.

Na ile dobrze modele językowe kontrolują maszyny?

Najlepiej radzący sobie model, system o 120 miliardach parametrów nazwany GPT-oss, konsekwentnie odkrywał wysokiej jakości strategie sterowania dla większości zadań, często osiągając wyniki optymalne lub bliskie optymalnym. Inny model, Qwen2.5, wypadł szczególnie dobrze w niektórych problemach, przewyższając GPT-oss w przypadku odwróconego wahadła, choć miał trudności w innych zadaniach, jak standardowe wahadło. Ważne jest, że początkowe kontrolery generowane przez LLM-y często były przeciętne, co pokazuje, że nie odtwarzały po prostu gotowych rozwiązań z danych treningowych. Wydajność poprawiała się znacząco wraz z iteracjami, gdy modele korzystały z informacji zwrotnej, by dostosować, które sygnały czujników są najważniejsze i w jaki sposób powinny wpływać na działania. Autorzy zbadali też, ile kroków czasowych danych z czujników dołączyć do każdego promptu poprawiającego i które elementy informacji zwrotnej są kluczowe, wykazując, że najlepsze wyniki daje umiarkowana ilość danych i szczegółowe informacje o poprzednich strategiach.

Dlaczego to ważne dla przyszłych robotów

Dla laika główny wniosek jest taki, że modele językowe potrafią znacznie więcej niż prowadzić rozmowy: mogą pomagać w projektowaniu precyzyjnych reguł ruchu, które sprawiają, że maszyny poruszają się inteligentnie. Zamiast zaczynać od losowych zachowań i potrzebować ogromnych ilości danych z prób i błędów, LLM może zaproponować rozsądny plan sterowania na podstawie opisu słownego, a następnie stopniowo go udoskonalać, analizując krótkie zapisy tego, co się stało podczas prób. To połączenie wiedzy uprzedniej i uczenia z doświadczenia może zmniejszyć koszty i wysiłek budowy zdolnych robotów i innych systemów autonomicznych. Oczywiście pozostają trudności — jak duże zapotrzebowanie obliczeniowe przy uruchamianiu dużych modeli oraz wyzwania związane ze skalowaniem do bardzo złożonych, długotrwałych zadań — ale badanie wskazuje ścieżkę ku robotom, których niskopoziomowe ruchy są kształtowane przynajmniej częściowo przez systemy pierwotnie trenowane po prostu do przewidywania następnego słowa w zdaniu.

Cytowanie: Carvalho, J.T., Nolfi, S. Sensory-motor control with large language models via iterative policy refinement. Sci Rep 16, 13575 (2026). https://doi.org/10.1038/s41598-026-42091-0

Słowa kluczowe: duże modele językowe, sterowanie robotem, uczenie przez wzmacnianie, agenci ucieleśnieni, iteracyjna poprawa polityki