Clear Sky Science · nl
Intrinsieke zuurstofgradiënt-gedreven tweede-orde memristors voor continu versterkend leren
Waarom het belangrijk is hardware te leren
Computers worden beter in leren uit ervaring, maar het merendeel van de huidige kunstmatige intelligentie draait nog volledig in software op energie-intensieve chips. Ons brein daarentegen slaat informatie op en verwerkt die op dezelfde plaats, gebruikmakend van langzame, subtiele ionenstromen die van nature in de loop van de tijd aanpassen. Dit artikel introduceert een nieuw type elektronische component die die zachte interne gradiënten nabootst, waardoor hardware kan bijstellen hoe snel het leert naarmate taak en omgeving veranderen. Dergelijke apparaten zouden ooit kunnen leiden tot efficiëntere, breinachtige machines die continu blijven leren zonder telkens opnieuw te hoeven beginnen.

Een minuscuul apparaat geïnspireerd op levende cellen
Het werk is geïnspireerd op hoe levende cellen verschillen in ionconcentratie over hun membranen gebruiken als duurzame energielandschappen voor signalering en geheugen. In plaats van te proberen elk biologisch detail te kopiëren, richtten de onderzoekers zich op het reproduceren van één kernkenmerk: een ingebouwde gradiënt die langzaam in de tijd verandert. Ze bouwden een sandwichachtig elektronisch apparaat, een zogenaamde tweede-orde memristor, bestaande uit gestapelde dunne lagen op een transparante elektrode. Door een speciale zink-porfyrine moleculaire laag in te brengen en vervolgens zorgvuldig een laag aluminiumoxide erbovenop te deponeren, creëerden ze een stabiele zuurstofconcentratiegradiënt binnen het apparaat. Deze interne gradiënt werkt vergelijkbaar met het binnen–buitenverschil over een celmembraan en slaat een geschiedenis van vroegere elektrische activiteit op.
Langzame, controleerbare verandering in plaats van abrupte schakeling
Veel bestaande memristors schakelen abrupt tussen toestanden, wat goed is voor digitale opslag maar slecht om geleidelijke verandering in de tijd weer te geven. In het nieuwe apparaat driften en diffunderen zuurstofionen langzaam langs de ingebouwde gradiënt, waardoor een zacht evoluerende elektrische conductantie ontstaat die langer dan 100 seconden kan aanhouden en relaxeren. Door korte elektrische pulsen van verschillende sterktes uit één richting toe te passen, kon het team ionen verder tegen de gradiënt in duwen of ze terug laten driften, en daarmee de conductantie fijn afstemmen in plaats van die simpelweg aan of uit te zetten. Dit gedrag, bekend als tweede-orde dynamica, stelde het apparaat in staat ongeveer 40 verschillende, langlevende tussenniveaus te creëren — “pseudo-nonvolatile” toestanden die niet permanent vastliggen, maar lang genoeg stabiel blijven om nuttig te zijn voor leren.

Hoe het apparaat leren in de praktijk hervormt
Om te laten zien waarom dit langzame, door een gradiënt aangedreven gedrag ertoe doet, koppelden de auteurs het apparaat direct aan een gebruikelijke leeregel uit versterkend leren, waarbij een agent herhaaldelijk een wereld verkent en bijhoudt hoeveel hij elk handelen vertrouwt. In deze algoritmen bestuurt één parameter — de leersnelheid — hoe snel vroegere ervaringen worden overschreven door nieuwe informatie. In plaats van die snelheid handmatig te kiezen, koppelden zij die aan de tijdsafhankelijke conductantieveranderingen van hun memristor. Kort na een sterke elektrische puls verandert de conductantie van het apparaat snel; later stabiliseert het in langzamere, kleinere aanpassingen. Het vertalen van deze natuurlijke vertraging naar de leeregel betekent dat de agent aanvankelijk gedurfd verkent en vervolgens geleidelijk zijn strategie stabiliseert, vergelijkbaar met een dier dat eerst experimenteert en later zijn gewoonten verfijnt.
Conventionele training verslaan in veranderende werelden
De onderzoekers testten dit hardware-geïnspireerde leerschema op gesimuleerde navigatietaken waarbij een autonoom voertuig onder communicatiebeperkingen een goede route moet vinden. In een statische wereld verminderde de door memristor aangedreven leersnelheid het aantal trainingsiteraties dat nodig was om een goede oplossing te bereiken met bijna 70 procent vergeleken met vaste of handmatig afgestemde schema’s, terwijl ook onstabiele oscillaties en slechte lokale keuzes afnamen. Ze maakten het probleem vervolgens moeilijker door de kaarten te vergroten en de omstandigheden in meerdere fasen te wijzigen, waarmee ze een wereld nabootsten die in de loop van de tijd complexer wordt. Zelfs daar verminderde het door het apparaat afgeleide leerpatroon het totale aantal trainingsepisodes met meer dan een derde ten opzichte van standaard lineaire schema’s, en paste het zich soepel aan naarmate de taak groter werd.
Wat dit betekent voor toekomstige breinachtige machines
Voor een niet-specialistische lezer is de kernboodschap dat het team een microscopisch materiaaltrucje — het verankeren van een zachte zuurstofgradiënt — heeft omgezet in een krachtige manier om te sturen hoe machines in de loop van de tijd leren. In plaats van te vertrouwen op zorgvuldig met de hand afgestemde software-instellingen, komt het leerpatroon natuurlijk voort uit de langzame interne fysica van het apparaat zelf. Dit suggereert een toekomst waarin neuromorfe hardware niet alleen getallen opslaat, maar leeregels belichaamt in zijn materiaalsamenstelling, waardoor kunstmatige systemen ontstaan die continu kunnen aanpassen aan nieuwe situaties met minder energie en minder menselijke fijnregeling.
Bronvermelding: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0
Trefwoorden: memristor, neuromorfe hardware, versterkend leren, zuurstofiongradiënt, continuleren