Clear Sky Science · pl

Wewnętrzny gradient tlenu napędzający drugorzędowe memrystory do ciągłego uczenia przez wzmacnianie

· Powrót do spisu

Dlaczego warto nauczyć sprzęt, by się uczył

Komputery coraz lepiej uczą się na podstawie doświadczenia, ale większość współczesnej sztucznej inteligencji wciąż działa wyłącznie w oprogramowaniu na energochłonnych układach. Nasze mózgi przechowują i przetwarzają informacje w tym samym miejscu, wykorzystując powolne, subtelne przepływy jonów, które naturalnie dostosowują się w czasie. W artykule przedstawiono nowy typ elementu elektronicznego, który naśladuje takie łagodne wewnętrzne gradienty, pozwalając sprzętowi samodzielnie regulować tempo uczenia w zależności od zadania i środowiska. Takie urządzenia mogą w przyszłości doprowadzić do bardziej efektywnych, mózgo-podobnych maszyn, które uczą się ciągle bez rozpoczynania od początku.

Figure 1
Figure 1.

Maleńkie urządzenie inspirowane komórkami żywymi

Praca jest inspirowana tym, jak komórki żywe wykorzystują różnice w stężeniu jonów po obu stronach błony jako długotrwałe krajobrazy energetyczne do sygnalizacji i pamięci. Zamiast kopiować każdy biologiczny detal, badacze skupili się na odtworzeniu jednej kluczowej cechy: wbudowanego gradientu, który zmienia się powoli w czasie. Zbudowali przekładkowe urządzenie elektroniczne, zwane drugorzędowym memrystorem, składające się z nałożonych cienkich warstw na przezroczystym elektrodom. Wprowadzając specjalną warstwę molekularną na bazie porfiryny cynkowej, a następnie starannie odkładając warstwę tlenku glinu na wierzchu, stworzyli stabilny gradient stężenia tlenu wewnątrz urządzenia. Ten wewnętrzny gradient działa podobnie jak różnica wewnątrz-na-zewnątrz przez błonę komórkową, przechowując historię poprzedniej aktywności elektrycznej.

Powolna, kontrolowana zmiana zamiast gwałtownego przełączania

Wiele istniejących memrystorów przełącza się gwałtownie między stanami, co jest dobre dla pamięci cyfrowej, ale słabe do reprezentowania stopniowych zmian w czasie. W nowym urządzeniu jony tlenu przesuwają się i dyfundują powoli wzdłuż wbudowanego gradientu, powodując łagodnie ewoluującą przewodność elektryczną, która może utrzymywać się i relaksować przez ponad 100 sekund. Poprzez przykładanie krótkich impulsów elektrycznych o różnej sile z jednego kierunku, zespół mógł albo wypchnąć jony dalej wbrew gradientowi, albo pozwolić im dryfować wstecz, precyzyjnie dostrajając przewodność zamiast ją przełączać. To zachowanie, znane jako dynamika drugiego rzędu, pozwoliło urządzeniu wygenerować około 40 odrębnych, długotrwałych stanów pośrednich — „pseudo-nieulotnych” stanów, które nie są trwale zablokowane, ale pozostają stabilne wystarczająco długo, by były użyteczne w uczeniu.

Figure 2
Figure 2.

Jak urządzenie przekształca uczenie w praktyce

Aby pokazać, dlaczego to powolne, napędzane gradientem zachowanie ma znaczenie, autorzy połączyli urządzenie bezpośrednio ze zwykłą regułą uczenia stosowaną w uczeniu przez wzmacnianie, w którym agent wielokrotnie eksploruje świat i aktualizuje, ile ufa każdemu działaniu. W tych algorytmach pojedynczy parametr — tempo uczenia — kontroluje, jak szybko przeszłe doświadczenie jest nadpisywane nową informacją. Zamiast wybierać to tempo ręcznie, odwzorowali je na zależne od czasu zmiany przewodności ich memrystora. Na początku po silnym impulsie przewodność urządzenia zmienia się szybko; później ustala się w wolniejszych, mniejszych korektach. Przeniesienie tego naturalnego spowolnienia do reguły uczenia sprawia, że agent najpierw eksploruje odważnie, a potem stopniowo stabilizuje strategię, podobnie jak zwierzę, które początkowo eksperymentuje, a potem dopracowuje nawyki.

Pokonywanie konwencjonalnego treningu w zmieniających się światach

Badacze przetestowali tę harmonogram uczenia inspirowany sprzętem na symulowanych zadaniach nawigacyjnych, w których autonomiczny pojazd musi znaleźć dobrą trasę przy ograniczonym zasięgu komunikacji. W statycznym świecie tempo uczenia sterowane memrystorem skróciło liczbę iteracji treningowych potrzebnych do osiągnięcia dobrego rozwiązania o niemal 70 procent w porównaniu z ustalonymi lub ręcznie dostrajanymi harmonogramami, jednocześnie zmniejszając niestabilne oscylacje i złe lokalne wybory. Następnie skomplikowali zadanie, powiększając mapy i zmieniając warunki w wielu etapach, naśladując świat, który z czasem staje się bardziej złożony. Nawet tam wzorzec uczenia pochodzący z urządzenia zmniejszył łączną liczbę epizodów treningowych o ponad jedną trzecią w stosunku do standardowych schematów liniowych, adaptując się płynnie w miarę skalowania zadania.

Co to oznacza dla przyszłych, mózgo-podobnych maszyn

Dla czytelnika nieznającego tematu sedno jest takie: zespół przekształcił mikroskopijny trik materiałowy — utrwalenie łagodnego gradientu tlenu — w potężny sposób kontrolowania, jak maszyny uczą się w czasie. Zamiast polegać na starannie ręcznie dostrajanych ustawieniach programowych, zachowanie uczenia wyłania się naturalnie z powolnej wewnętrznej fizyki urządzenia. Sugeruje to przyszłość, w której sprzęt neuromorficzny nie tylko przechowuje liczby, lecz ucieleśnia reguły uczenia w swojej strukturze materiałowej, tworząc systemy sztuczne, które mogą stale dostosowywać się do nowych sytuacji przy mniejszym zużyciu energii i mniejszym udziale ludzkiego strojenia.

Cytowanie: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0

Słowa kluczowe: memrystor, sprzęt neuromorficzny, uczenie przez wzmacnianie, gradient jonów tlenu, uczenie ciągłe