Clear Sky Science · nl

Een fuzzy-TD3 hybride reinforcement learning-kader voor robuuste trajecttracking van de Mitsubishi RV-2AJ robotarm

2026-03-06 · Terug naar het overzicht

Slimmere robotarmen voor rommelige, real-world taken

Industriële robotarmen zijn uitstekend in het herhaald uitvoeren van dezelfde beweging, maar ze kunnen struikelen als de taak of de omgeving ook maar iets verandert. Dit artikel presenteert een nieuwe manier om een gangbare fabriekstyle robotarm zowel de stabiliteit van een traditionele regelaar als de aanpassingsvermogen van kunstmatige intelligentie te geven. Het doel is eenvoudig maar veeleisend: laat de arm complexe 3D-paden nauwkeurig volgen, zelfs wanneer de belasting verandert of wanneer hij wordt geduwd en verstoord, zonder een perfect wiskundig model van het systeem nodig te hebben.

Waarom precieze beweging moeilijk is voor robots

Moderne robotarmen, zoals de hier bestudeerde 5-gewrichtige Mitsubishi RV-2AJ, zijn complexe mechanische systemen. Hun gewrichten beïnvloeden elkaar, de beweging is sterk niet-lineair en in echte fabrieksomgevingen moeten ze omgaan met wrijving, vibratie, sensorgebruik, ruis en onbekende lasten. Klassieke regelmethoden, zoals PID-regelaars, zijn makkelijk af te stemmen en veelgebruikt, maar ze hebben moeite wanneer de robot snel beweegt, verschillende objecten draagt of onverwachte krachten tegenkomt. Aan de andere kant kan deep reinforcement learning in principe uitstekende regels leren door proef en fout, maar in de praktijk kan het langzaam leren, aanvankelijk grillig gedrag vertonen en is het vaak een ‘black box’ die ingenieurs moeilijk kunnen interpreteren of vertrouwen.

Mensenregels combineren met machine learning

Om deze kloof te overbruggen stelt de auteur een hybride regelaar voor die een fuzzylogicasysteem—dat expertsregels op een interpreteerbare manier codeert—koppelt aan een krachtige reinforcement learning-methode genaamd TD3. In dit ontwerp observeert het fuzzy-gedeelte hoe ver elk gewricht afwijkt van zijn doel en hoe snel die fout verandert. Het past vervolgens directe corrigerende koppeltoepassingen toe volgens een compacte set “als–dan” regels, vergelijkbaar met hoe een ervaren operator zou handelen. Dit levert een stabiel, begrijpelijk basisgedrag. Tegelijkertijd leert de TD3-agent, via herhaalde simulatie, hoe een kleinere “residuele” koppel toegevoegd kan worden die de beweging verfijnt en compenseert voor moeilijk te modelleren effecten zoals niet-lineaire wrijving of aanhoudende veranderingen in de draaglast. De twee koppel-signalen worden simpelweg per gewricht bij elkaar opgeteld, zodat de robot altijd wordt aangestuurd door een partnerschap van expliciete regels en geleerde aanpassing.

Een digitale testbank voor zware paden

De hybride regelaar wordt getraind en getest in een gedetailleerde virtuele replica van de Mitsubishi-arm, opgebouwd met multibody-simulatiehulpmiddelen. Deze omgeving reproduceert de stijve verbindingen van de arm, gewrichtsbeperkingen en sensoronvolkomenheden, waardoor het leeralgoritme veilig kan verkennen terwijl het toch realistische fysica ondervindt. De onderzoekers dagen de regelaar uit met veeleisende 3D-trajecten—N-vormige, helix- en spiraalpaden—die soepele, gecoördineerde beweging van alle gewrichten vereisen. Ze injecteren ook onzekerheid door massen en traagheden van links te wijzigen en door plotselinge koppelpulsen toe te voegen die botsingen of externe duwen nabootsen. Binnen deze opzet zorgt het fuzzylogica-gedeelte ervoor dat de arm niet wild gedrag vertoont, terwijl de TD3-agent geleidelijk de prestatie verbetert door een beloningssignaal te maximaliseren dat nauwkeurigheid, soepelheid en energie-efficiëntie waardeert.

Hoe de hybride zijn rivalen overtreft

Over alle geteste paden verslaat de hybride fuzzy‑TD3-regelaar zowel een zuivere TD3-regelaar als een eerdere hybride die TD3 combineerde met een standaard PID-regelaar. Foutmaten die afwijking over tijd accumuleren laten reducties zien van ongeveer 28–50% vergeleken met alleen TD3 en ongeveer 15–29% vergeleken met de PID-gebaseerde hybride. Zelfs wanneer de fysische parameters van de robot worden verstoord en externe storingen worden toegepast, behoudt de nieuwe regelaar zijn voordeel, met foutreducties van ongeveer 23–34% versus TD3 en 11–17% versus PID‑TD3. Aanvullende analyses tonen dat het leerproces soepel convergeert, het algehele gedrag numeriek stabiel is en dat de fuzzyregels op intuïtieve patronen activeren—zachte, frequente correcties tijdens normaal bewegen en sterkere, zeldzamere ingrepen wanneer de arm ver van zijn doel afwijkt.

Een balans tussen precisie en energieverbruik

De studie toont ook dat de regelaar kan worden afgesteld om wat precisie in te ruilen voor merkbare energiebesparing. Door één gewicht in de beloningsfunctie aan te passen, leert het algoritme het gemiddelde gewrichtskoppel met meer dan 20% te verminderen terwijl de trackingfout slechts licht toeneemt. Deze instelbaarheid betekent dat hetzelfde regelschema kan worden aangepast aan taken waar efficiëntie belangrijker is dan microscopische nauwkeurigheid, of omgekeerd, zonder het hele systeem opnieuw te ontwerpen.

Wat dit betekent voor toekomstige robots

In gewone bewoordingen laat dit werk een veelbelovend recept zien voor betrouwbaardere en beter verklaarbare robotarmen: laat een duidelijke set menselijkleesbare regels snelle correcties en veiligheid afhandelen, terwijl een leeralgoritme rustig de prestaties in de loop van de tijd verfijnt. Het resultaat is een regelaar die ingewikkelde paden nauwkeuriger volgt, storingen wegschudt, energie verstandiger gebruikt en voor ingenieurs uitlegbaar blijft. Dergelijke hybride ontwerpen kunnen helpen om geavanceerde AI-gestuurde besturing uit het lab en de echte fabrieken, magazijnen en servicerobots binnen te brengen, waar betrouwbaarheid en transparantie even belangrijk zijn als ruwe intelligentie.

Bronvermelding: Hazem, Z.B. A fuzzy-TD3 hybrid reinforcement learning framework for robust trajectory tracking of the Mitsubishi RV-2AJ robotic arm. Sci Rep 16, 12269 (2026). https://doi.org/10.1038/s41598-026-42615-8

Trefwoorden: besturing van robotarm, reinforcement learning, fuzzylogica, trajecttracking, robuuste automatisering