Clear Sky Science · pl

Hybrydowy framework uczenia ze wzmocnieniem fuzzy-TD3 dla odpornego śledzenia trajektorii ramienia robotycznego Mitsubishi RV-2AJ

· Powrót do spisu

Mądrzejsze ramiona robotów do nieuporządkowanych zadań w realnym świecie

Przemysłowe ramiona robotyczne świetnie powtarzają te same ruchy wielokrotnie, ale potrafią zawieść, gdy zadanie lub otoczenie zmieni się nawet nieznacznie. W artykule przedstawiono nowe podejście, które daje powszechnemu ramieniu fabrycznemu stabilność tradycyjnego regulatora oraz jednocześnie adaptacyjność sztucznej inteligencji. Cel jest prosty, lecz wymagający: sprawić, by ramię precyzyjnie podążało za złożonymi ścieżkami 3D, nawet gdy zmienia się jego ładunek lub jest popychane i zakłócane, bez konieczności posiadania idealnego modelu matematycznego maszyny.

Dlaczego precyzyjny ruch jest trudny dla robotów

Nowoczesne ramiona robotyczne, takie jak badane tutaj 5-przegubowe Mitsubishi RV-2AJ, to skomplikowane układy mechaniczne. Ich przeguby wzajemnie na siebie oddziałują, ruch jest silnie nieliniowy, a w rzeczywistych zakładach muszą radzić sobie z tarciem, wibracjami, szumem czujników i nieznanymi ładunkami. Klasyczne metody sterowania, jak regulatory PID, są proste w strojenia i powszechnie stosowane, lecz mają problemy, gdy robot porusza się szybko, przenosi różne przedmioty lub napotyka niespodziewane siły. Z kolei głębokie uczenie ze wzmocnieniem teoretycznie potrafi wyuczyć znakomite polityki sterowania przez próbę i błąd, ale w praktyce uczy się powoli, początkowo może zachowywać się niestabilnie i często pozostaje „czarną skrzynką”, której inżynierowie trudno ufają lub interpretują.

Łączenie reguł ludzkich z uczeniem maszynowym

Aby zamknąć tę lukę, autor proponuje sterownik hybrydowy, który paruje system logiki rozmytej — kodujący reguły ekspertów w sposób zrozumiały — z potężną metodą uczenia ze wzmocnieniem o nazwie TD3. W tym rozwiązaniu część rozmyta obserwuje, jak bardzo każdy przegub odchyla się od celu i jak szybko zmiana tej błędnej wartości przebiega. Następnie nakłada natychmiastowe korekcyjne momenty obrotowe zgodnie z kompaktowym zbiorem reguł „jeżeli–to”, podobnie jak doświadczony operator. To zapewnia stabilne, zrozumiałe zachowanie bazowe. Równocześnie agent TD3 uczy się, poprzez powtarzaną symulację, jak dodać mniejszy „resztkowy” moment, który dopracowuje ruch, kompensując trudne do wymodelowania efekty, takie jak nieliniowe tarcie czy utrzymujące się zmiany masy przenoszonego ładunku. Oba sygnały momentów sumują się w każdym przegubie, więc ramię jest zawsze napędzane współpracą między jawnie zdefiniowanymi regułami a wyuczonym dopasowaniem.

Figure 1
Figure 1.

Cyfrowe stanowisko testowe dla trudnych ścieżek

Sterownik hybrydowy jest trenowany i testowany w szczegółowej wirtualnej kopii ramienia Mitsubishi zbudowanej za pomocą narzędzi do symulacji wielociałowej. Środowisko odtwarza sztywne człony ramienia, limity przegubów i niedoskonałości sensorów, pozwalając algorytmowi uczyć się bezpiecznie, a jednocześnie mierzyć się z realistyczną fizyką. Badacze stawiają sterownikowi wymagające trajektorie 3D — kształtem przypominające literę N, śrubowe i spiralne ścieżki — które wymagają płynnej, skoordynowanej pracy wszystkich przegubów. Wprowadzają też niepewność, zmieniając masy i momenty bezwładności członów oraz dodając nagłe impulsy momentu, które imitują uderzenia lub zewnętrzne pchnięcia. W tym układzie komponent logiki rozmytej zapobiega gwałtownym zachowaniom ramienia, podczas gdy agent TD3 stopniowo poprawia wydajność, maksymalizując sygnał nagrody uwzględniający dokładność, płynność i efektywność energetyczną.

Jak hybryda przewyższa rywali

We wszystkich testowanych trajektoriach hybrydowy sterownik fuzzy‑TD3 przewyższa zarówno czysty kontroler TD3, jak i wcześniejszą hybrydę łączącą TD3 z klasycznym regulatorem PID. Miary błędu kumulującego odchylenia w czasie wykazują redukcje rzędu 28–50% w porównaniu z samym TD3 oraz około 15–29% w porównaniu z hybrydą opartą na PID. Nawet gdy parametry fizyczne robota są zaburzone i stosowane są zewnętrzne zakłócenia, nowy sterownik utrzymuje przewagę, zmniejszając błędy o około 23–34% względem TD3 i 11–17% względem PID‑TD3. Dodatkowe analizy pokazują, że proces uczenia konwerguje płynnie, zachowanie jest numerycznie stabilne, a reguły rozmyte aktywują się w intuicyjnych wzorcach — delikatne, częste korekty podczas normalnego ruchu i silniejsze, rzadsze interwencje, gdy ramię znacznie odchyla się od celu.

Figure 2
Figure 2.

Równoważenie precyzji i zużycia energii

Badanie pokazuje również, że sterownik można dostroić, aby kosztem niewielkiej utraty precyzji osiągnąć zauważone oszczędności energii. Poprzez zmianę jednej wagi w funkcji nagrody, algorytm uczy się obniżać średni moment w przegubach o ponad 20% przy jedynie nieznacznym wzroście błędu śledzenia. Ta możliwość strojenia oznacza, że ten sam schemat sterowania da się dostosować do zadań, gdzie efektywność jest ważniejsza niż mikroskopowa dokładność, lub odwrotnie, bez potrzeby przeprojektowywania całego systemu.

Co to oznacza dla przyszłych robotów

Mówiąc prościej, praca ta demonstruje obiecującą receptę na bardziej niezawodne i zrozumiałe ramiona robotyczne: pozwól zestawowi czytelnych, zrozumiałych reguł ludzkich obsługiwać szybkie korekty i bezpieczeństwo, podczas gdy algorytm uczący się cicho udoskonala wydajność w czasie. Efektem jest sterownik, który dokładniej śledzi złożone ścieżki, odporny na zakłócenia, oszczędniej wykorzystuje energię i pozostaje wyjaśnialny dla inżynierów. Takie hybrydowe konstrukcje mogą pomóc przenieść zaawansowane sterowanie oparte na sztucznej inteligencji z laboratorium do prawdziwych fabryk, magazynów i robotów usługowych, gdzie niezawodność i przejrzystość są równie ważne jak surowa inteligencja.

Cytowanie: Hazem, Z.B. A fuzzy-TD3 hybrid reinforcement learning framework for robust trajectory tracking of the Mitsubishi RV-2AJ robotic arm. Sci Rep 16, 12269 (2026). https://doi.org/10.1038/s41598-026-42615-8

Słowa kluczowe: sterowanie ramieniem robota, uczenie ze wzmocnieniem, logika rozmyta, śledzenie trajektorii, odporna automatyzacja