Clear Sky Science · pl

Przywracanie kontroli nad robotami w nieoczekiwanych sytuacjach poprzez uczenie online

· Powrót do spisu

Dlaczego utrzymanie kontroli nad robotami ma znaczenie

Roboty opuszczają hale produkcyjne i wkraczają w zatłoczone, nieprzewidywalne środowiska: ulice miast, pola, strefy katastrof, a nawet drogi morskie. W takich miejscach nagły poryw wiatru, łatka lodu czy uszkodzone koło mogą sprawić, że robot zacznie zachowywać się w sposób, którego projektanci nie przewidzieli, narażając ludzi, mienie i misje. W artykule przedstawiono FLAIR — szybko uczącą się nakładkę, która pomaga robotom pozostać pod ludzką kontrolą, gdy dzieje się coś nieoczekiwanego, bez konieczności przebudowywania ich wewnętrznych sterowników od podstaw.

Figure 1
Figure 1.

Roboty kontra rzeczywisty świat

Większość robotów i inteligentnych pojazdów jest dostrajana do warunków, które inżynierowie mogą przewidzieć i zakodować — sucha podłoga w magazynie, dobrze oznakowane drogi, stabilny sprzęt. W rzeczywistym świecie jednak rzeczy idą nie tak: ładunek przesuwa się, gąsienice się zużywają, podłoże staje się śliskie, a siły takie jak boczny wiatr czy prądy wodne odciągają pojazd z kursu. W takiej sytuacji operator może przesunąć drążek do przodu, a maszyna zamiast tego przesuwa się na bok. Autorzy definiują robota jako „sterowalnego”, gdy jego reakcja odpowiada temu, czego osoba rozsądnie oczekuje; przy silnych zakłóceniach ta więź się urywa, co prowadzi do wypadków, na przykład statku klinującego się w poprzek kanału. Wyzwanie polega na szybkim przywróceniu tej intuicyjnej relacji między komendą a ruchem, nawet gdy zakłócenie nie zostało wcześniej przewidziane.

Warstwa ucząca się nad istniejącymi regulatorami

Zamiast projektować od nowa niskopoziomowy regulator robota dla każdego możliwego wypadku, badacze dokładają nową warstwę wysokiego poziomu nazwaną FLAIR (Fast Learning‑Based Adaptation for Immediate Recovery). FLAIR nasłuchuje tych samych poleceń, które wysyła operator — na przykład „jechać do przodu” czy „skręcić w lewo” — i obserwuje rzeczywisty ruch robota za pomocą pokładowych czujników. Porównując zamierzony ruch z ruchem rzeczywistym, uczy się zwartego opisu matematycznego tego, co aktualnie zakłóca maszynę — na przykład zmniejszona przyczepność jednej gąsienicy czy boczne pchnięcie wiatru. Co 225 milisekund aktualizuje ten wewnętrzny obraz i delikatnie koryguje komendy, zanim przekaże je oryginalnemu sterownikowi. Aby system był zrozumiały dla ludzi, FLAIR reprezentuje ogólne zakłócenia prostymi krzywymi zamiast nieprzejrzystych głębokich sieci i potrafi wskazać, gdzie w przestrzeni lub w których kierunkach ryzyko jest obecnie największe.

Figure 2
Figure 2.

Testy na rampach, zakrętach i sztucznych sztormach

Aby sprawdzić możliwości FLAIR, zespół przeprowadził ponad 700 eksperymentów z robotem gąsienicowym na wewnętrznych torach testowych. Jeden tor miał ciasne, w kształcie S zakręty; inny łączył śliską rampę z sekcją udającą wiatr, gdzie zewnętrzne wentylatory pchały robota na bok; trzeci dodawał nierówności i przeszkody, by wstrząsnąć czujnikami i wprowadzić dodatkowy szum. Badacze symulowali różne typy problemów: uszkodzenia statyczne (np. trwale osłabiona gąsienica), uszkodzenia dynamiczne zmieniające się w czasie oraz efekty zależne od stanu, gdzie zakłócenie zależało od pozycji lub kursu — przypominające zjawiska takie jak siły Bernoulliego przyciągające statki ku ścianom kanału. Automatyczny kierowca pokonywał te same trasy z FLAIR i bez niego, a zespół porównywał, jak bardzo ścieżka robota odpowiadała komendom oraz ile czasu zajmowało ukończenie każdego okrążenia.

Szybsze odzyskiwanie kontroli niż w istniejących metodach

We wszystkich sekcjach testowych FLAIR zmniejszył rozbieżność między poleconym a rzeczywistym ruchem o około trzy czwarte i skrócił czasy okrążeń w zbliżonym stopniu, przywracając wydajność bliską tej z niezakłóconego robota. Na szczególnie wymagającej rampie z mieszanym poślizgiem i uszkodzeniem sprzętu skutecznie przywrócił pełną sterowalność, podczas gdy standardowe regulatory optymalne i adaptacyjne mogły co najwyżej zredukować błąd o połowę. Bazowa metoda uczenia się ze wzmocnieniem online zawiodła całkowicie, stając się niebezpieczna zanim zdążyła się dostosować. FLAIR okazał się także odporny, gdy zakłócenie zmieniało się w trakcie jazdy: wykrywał, że poprzedni model już nie pasuje do rzeczywistości, czyścił pamięć i w ciągu kilku sekund ponownie uczył nowy opis, utrzymując sterowalność robota mimo zmieniających się warunków. Ta sama strategia sprawdziła się w symulowanym, sześcionogim robocie z wieloma stawami, gdzie FLAIR pomógł skompensować osłabioną nogę.

Wizualizacja tego, co czuje robot

Ponad utrzymaniem robotów na kursie, FLAIR daje wgląd w ich świat. Ponieważ modeluje, jak zakłócenia zmieniają się w zależności od pozycji i kierunku, może pokazać operatorowi, gdzie siły są najsilniejsze — przy krawędzi kanału, pod określonym kątem rampy lub podczas jazdy pod wiatr. Ta „introspekcja” zamienia system w narzędzie diagnostyczne, sugerując, czy problem najprawdopodobniej wynika ze zużycia, terenu czy zewnętrznego pchnięcia, a także proponując bezpieczniejsze trasy omijające obszary wysokiego ryzyka. Co ważne, metoda opiera się wyłącznie na istniejących czujnikach robota i pokładowym komputerze, więc może działać w terenie bez połączeń z chmurą czy wstępnie zebranych danych treningowych.

Co to oznacza dla codziennej robotyki

Badanie pokazuje, że lekka warstwa ucząca się może znacznie zwiększyć odporność robotów na niespodzianki, bez konieczności posiadania idealnych modeli każdej możliwej przeszkody. O ile siły korygujące mieszczą się w zakresie możliwości silników, FLAIR może szybko nauczyć się ponownie tłumaczyć ludzkie polecenia na właściwe niskopoziomowe działania, nawet na nierównym terenie i przy zmieniających się warunkach. Dla osób niebędących ekspertami oznacza to, że przyszłe pojazdy naziemne, roboty dostawcze czy maszyny badawcze mogą zachowywać się bardziej jak wiarygodne narzędzia — nadal „robić to, co masz na myśli”, gdy otoczenie zawodzi, i sygnalizować, gdy osiągnięto granice, zamiast nagle zbaczać z kursu.

Cytowanie: Allard, M., Flageat, M., Lim, B. et al. Getting robots back on track by reconstituting control in unexpected situations with online learning. Nat Commun 17, 3715 (2026). https://doi.org/10.1038/s41467-026-70256-y

Słowa kluczowe: odporność robotów, sterowanie z uczeniem online, pojazdy autonomiczne, odzyskiwanie po uszkodzeniach robotów, robotyka adaptacyjna