Clear Sky Science · de

Intrinsische gradientengetriebene, sauerstoffbasierte zweiter Ordnung Memristoren für kontinuierliches Verstärkungslernen

· Zurück zur Übersicht

Warum es wichtig ist, Hardware das Lernen beizubringen

Computer werden besser darin, aus Erfahrung zu lernen, doch der Großteil heutiger künstlicher Intelligenz läuft noch vollständig als Software auf energiehungrigen Chips. Unser Gehirn speichert und verarbeitet Informationen hingegen am selben Ort, mithilfe langsamer, subtiler Ionenflüsse, die sich auf natürliche Weise über die Zeit anpassen. Diese Arbeit stellt eine neue Art elektronischer Komponente vor, die jene sanften internen Gradienten imitiert und es der Hardware erlaubt, ihre Lernrate anzupassen, wenn sich Aufgabe und Umgebung verändern. Solche Bauelemente könnten eines Tages zu effizienteren, gehirnähnlichen Maschinen führen, die kontinuierlich weiterlernen, ohne von vorne anfangen zu müssen.

Figure 1
Figure 1.

Ein winziges Gerät, inspiriert von lebenden Zellen

Die Arbeit ist inspiriert davon, wie lebende Zellen Unterschiede in der Ionenkonzentration über ihre Membranen als langlebige Energielandschaften für Signalübertragung und Gedächtnis nutzen. Statt jedes biologische Detail zu kopieren, konzentrierten sich die Forschenden darauf, ein zentrales Merkmal nachzubilden: einen eingebauten Gradient, der sich langsam im Laufe der Zeit ändert. Sie bauten ein sandwichartiges elektronisches Bauelement, einen sogenannten Memristor zweiter Ordnung, aus geschichteten Dünnschichten auf einer transparenten Elektrode. Durch Einfügen einer speziellen Zink‑Porphyrin-Molekülschicht und das anschließende sorgfältige Aufbringen einer Aluminiumschicht (Aluminiumoxid) schufen sie einen stabilen Sauerstoffkonzentrationsgradienten im Inneren des Geräts. Dieser interne Gradient wirkt ähnlich wie der Innen‑Außen-Unterschied über eine Zellmembran und speichert eine Historie früherer elektrischer Aktivität.

Langsame, kontrollierbare Änderung statt abrupter Schaltvorgänge

Viele bestehende Memristoren schalten abrupt zwischen Zuständen, was für digitale Speicherung vorteilhaft, für die Darstellung gradueller zeitlicher Veränderungen jedoch ungeeignet ist. Im neuen Bauelement driften und diffundieren Sauerstoffionen langsam entlang des eingebauten Gradienten und erzeugen eine sanft sich entwickelnde elektrische Leitfähigkeit, die über mehr als 100 Sekunden bestehen und sich wieder zurückbilden kann. Durch Anlegen kurzer elektrischer Impulse unterschiedlicher Stärke aus einer einzigen Richtung konnte das Team Ionen weiter gegen den Gradient antreiben oder sie zurückdriften lassen und so die Leitfähigkeit fein abstimmen, statt sie einfach umzuschalten. Dieses Verhalten, bekannt als Dynamik zweiter Ordnung, ermöglichte dem Bauelement rund 40 unterscheidbare, langlebige Zwischenstufen — „pseudo‑nichtflüchtige“ Zustände, die nicht permanent fixiert sind, aber lange genug stabil bleiben, um für Lernprozesse nützlich zu sein.

Figure 2
Figure 2.

Wie das Gerät Lernen in der Praxis umformt

Um zu zeigen, warum dieses langsame, gradientengetriebene Verhalten wichtig ist, brachten die Autorinnen und Autoren das Bauelement direkt mit einer gängigen Lernregel im Verstärkungslernen zusammen, bei der ein Agent wiederholt eine Umgebung erkundet und aktualisiert, wie sehr er einer Aktion vertraut. In diesen Algorithmen steuert ein einzelner Parameter — die Lernrate — wie schnell vergangene Erfahrungen durch neue Informationen überschrieben werden. Anstatt diese Rate von Hand zu wählen, kartierten sie sie auf die zeitabhängigen Leitfähigkeitsänderungen ihres Memristors. Kurz nach einem starken elektrischen Impuls ändert sich die Leitfähigkeit schnell; später stabilisiert sie sich zu langsameren, kleineren Anpassungen. Diese natürliche Verlangsamung in die Lernregel zu übersetzen bedeutet, dass der Agent zunächst mutig exploriert und dann seine Strategie allmählich stabilisiert, ähnlich wie ein Tier, das zunächst experimentiert und später seine Gewohnheiten verfeinert.

Konventionelles Training in sich verändernden Welten übertreffen

Die Forschenden testeten diesen hardwareinspirierten Lernplan an simulierten Navigationsaufgaben, bei denen ein autonomes Fahrzeug unter Kommunikationsabdeckung einen guten Pfad finden muss. In einer statischen Welt reduzierte die memristorgetriebene Lernrate die Anzahl der Trainingsiterationen, die nötig sind, um eine gute Lösung zu erreichen, im Vergleich zu festen oder manuell abgestimmten Plänen um fast 70 Prozent, und verringerte zugleich instabile Oszillationen und schlechte lokale Entscheidungen. Anschließend erschwerten sie das Problem, indem sie die Karten vergrößerten und die Bedingungen über mehrere Stufen änderten, was eine Welt nachahmt, die mit der Zeit komplexer wird. Auch dort senkte das vom Bauelement abgeleitete Lernmuster die Gesamtzahl der Trainingsdurchläufe um mehr als ein Drittel gegenüber standardmäßigen linearen Schemata und passte sich dabei glatt an, während die Aufgabe skaliert wurde.

Was das für zukünftige gehirnähnliche Maschinen bedeutet

Für eine fachfremde Leserin oder einen fachfremden Leser ist die Kernbotschaft, dass das Team einen mikroskopischen Materialtrick — das Einfrieren eines sanften Sauerstoffgradienten — in eine leistungsfähige Methode verwandelt hat, das zeitliche Lernverhalten von Maschinen zu steuern. Anstatt sich auf sorgfältig von Menschen abgestimmte Softwareeinstellungen zu verlassen, entsteht das Lernverhalten natürlich aus der langsamen internen Physik des Bauelements. Das deutet auf eine Zukunft hin, in der neuromorphische Hardware nicht nur Zahlen speichert, sondern Lernregeln in ihrer Materialstruktur verkörpert und künstliche Systeme schafft, die sich kontinuierlich mit geringerem Energieaufwand und weniger menschlicher Feinabstimmung an neue Situationen anpassen.

Zitation: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0

Schlüsselwörter: Memristor, neuromorphische Hardware, Verstärkungslernen, Sauerstoffionen-Gradient, kontinuierliches Lernen