Clear Sky Science · de
Gehirn-inspirierte synaptische Transistoren für in-situ spikendes Verstärkungslernen mit Eligibility-Trace
Schlauere Maschinen inspiriert vom Gehirn
Die heutigen intelligenten Maschinen können Menschen in Spielen schlagen und beim Autofahren unterstützen, doch die Hardware, auf der diese Algorithmen laufen, unterscheidet sich noch erheblich davon, wie das Gehirn lernt. Dieses Paper stellt eine neue Art winziger elektronischer Bauelemente vor, die mehrere Schlüsselfunktionen realer Synapsen nachbilden, um aus Belohnungen und Fehlern zu lernen. Durch die Integration dieser synapsenähnlichen Transistoren in ein einfaches Netzwerk zeigen die Forschenden, dass ein kleiner Roboterwagen effizient lernen kann, in seiner Spur zu bleiben, ohne auf sperrige, energiehungrige Computer angewiesen zu sein.
Warum belohnungsbasiertes Lernen wichtig ist
Ein großer Teil der modernen künstlichen Intelligenz passt Verbindungen in einem Netzwerk nur anhand von Eingangs- und Ausgangsdaten an. Im Gegensatz dazu lernen Tiere nicht nur aus Mustern, sondern auch aus Erfolg und Misserfolg, die durch Belohnungen wie Nahrung oder Vergnügen signalisiert werden. Neurowissenschaftler modellieren dies mit „Verstärkungslernen“, wobei spezielle Neurochemikalien wie Dopamin den Synapsen mitteilen, ob eine kürzlich getroffene Handlung gut oder schlecht war. Eine verwandte Idee, der sogenannte Eligibility-Trace, erlaubt es einer Synapse, kürzliche Aktivität vorübergehend zu „merken“, sodass eine spätere Belohnung diese Verbindung noch angemessen verstärken oder abschwächen kann. Diese Eigenschaften direkt in Hardware nachzubilden könnte lernende Maschinen deutlich schneller und energieeffizienter machen.

Ein einzelner Transistor, der wie eine Synapse wirkt
Die Autorinnen und Autoren entwickeln einen synaptischen Transistor auf Basis eines speziellen Materials namens α-In2Se3, das sowohl Halbleiter- als auch ferroelektrische Eigenschaften besitzt — seine interne elektrische Polarisation lässt sich umkehren und bleibt bestehen. Das Bauelement hat drei Anschlüsse: zwei wirken wie die Prä- und Postsynapsenenden, während der dritte als Belohnungseingang dient. Wenn spike-ähnliche Spannungspulse zwischen den ersten beiden Anschlüssen angelegt werden, ändert sich die Leitfähigkeit des Kanals und ahmt nach, wie eine Synapse abhängig von der Spike-Timing stärker oder schwächer wird. Da die Polarisation des Materials langsam entspannt, driftet die Leitfähigkeit auf natürliche Weise zurück und bietet ein eingebautes, allmählich verblassendes Gedächtnis, das als Eligibility-Trace fungiert.
Belohnung und Gedächtnis in der Physik verankert
Dieser Transistor speichert mehr als nur einen Wert. Seine in-plane Polarisation reagiert hauptsächlich auf Signale, die das übliche timing-basierte Lernen zwischen zwei Neuronen repräsentieren, während die out-of-plane Polarisation stärker auf Pulse am dritten Anschluss anspricht, der als Belohnungssignal fungiert. Während der Relaxationsphase nach Spike-Aktivität trifft ein verzögerter Belohnungspuls am Gate ein und verstärkt oder verringert die verbleibende Leitfähigkeitsänderung. Kommt die Belohnung schnell, ist der Eligibility-Trace noch kaum abgeklungen, sodass das Gewicht stark aktualisiert wird; bei verspäteter Belohnung fällt die Wirkung geringer aus. Durch Anpassung von Größe und Form der elektrischen Pulse können die Forschenden einstellen, wie lange der Eligibility-Trace anhält — in einem Bereich, der biologischen Systemen ähnelt — und das ganz ohne zusätzliche Schaltkreise oder Speicherelemente.

Vom Einzelbauelement zum lernenden Fahrzeug
Um den praktischen Nutzen dieser synaptischen Transistoren zu prüfen, baute das Team ein kleines Array von Bauelementen und verband es zu einem spikenden neuronalen Netzwerk für eine Spurhalteaufgabe. Eine einfache, niedrig aufgelöste Ansicht der Straße vor dem Fahrzeug wird in Spike-Bursts umgewandelt, die in 18 Eingangsneuronen ankommen, die über die neuen Synapsen mit zwei Ausgangsneuronen verbunden sind, welche die Lenkung nach links und rechts steuern. Während das simulierte Fahrzeug umherfährt, erhält es Feedback anhand seiner Spurmitte. Dieses Feedback wird in Belohnungspulse umgewandelt, die zu den dritten Anschlüssen der synaptischen Transistoren laufen und deren Leitfähigkeit direkt auf dem Chip aktualisieren. Das Array lernt — trotz Bauelementschwankungen und Rauschen — das Fahrzeug in der Spur zu halten und erreicht eine Leistung, die dicht an einem idealen Softwaremodell liegt.
Was das für künftige Geräte bedeutet
Die Arbeit zeigt, dass ein einzelner, kompakter Transistor drei wesentliche Funktionen für gehirnähnliches Verstärkungslernen nativ ausführen kann: timing-basierte Anpassung der synaptischen Stärke, temporäre Speicherung jüngster Aktivität als Eligibility-Trace und belohnungsgetriebene Verstärkung oder Abschwächung dieses Traces. Da all dies in der Materialphysik des Bauelements selbst passiert, verspricht die resultierende Hardware erhebliche Einsparungen bei Fläche und Energie im Vergleich zu konventionellen Schaltungen, die das gleiche Verhalten in Software nachbilden. Solche synaptischen Transistoren könnten die Grundlage künftiger Edge-Geräte — etwa kleine Roboter, Sensoren oder Wearables — bilden, die in Echtzeit aus der Interaktion mit ihrer Umgebung lernen und dabei nur sehr wenig Energie verbrauchen.
Zitation: Wang, Y., Xiong, W., Yan, J. et al. Brain-inspired synaptic transistors for in-situ spiking reinforcement learning with eligibility trace. Nat Commun 17, 3001 (2026). https://doi.org/10.1038/s41467-026-69898-9
Schlüsselwörter: neuromorphe Hardware, Verstärkungslernen, spikende neuronale Netze, ferroelektrische Transistoren, autonomes Fahren