Clear Sky Science · it
Memristori di secondo ordine guidati da gradienti intrinseci di ossigeno per l’apprendimento per rinforzo continuo
Perché è importante insegnare all’hardware a imparare
I computer stanno migliorando nell’imparare dall’esperienza, ma la maggior parte dell’intelligenza artificiale attuale gira ancora interamente in software su chip che consumano molta energia. Il nostro cervello, al contrario, immagazzina ed elabora informazioni nello stesso luogo, usando flussi lenti e sottili di ioni che si adattano naturalmente nel tempo. Questo articolo presenta un nuovo tipo di componente elettronico che imita quei delicati gradienti interni, permettendo all’hardware di regolare la velocità di apprendimento man mano che cambiano il compito e l’ambiente. Dispositivi di questo tipo potrebbero un giorno portare a macchine più efficienti e simili al cervello, in grado di continuare ad apprendere senza ricominciare da zero.

Un minuscolo dispositivo ispirato alle cellule viventi
Il lavoro si ispira a come le cellule viventi utilizzano differenze di concentrazione ionica attraverso le loro membrane come paesaggi energetici duraturi per il segnale e la memoria. Invece di cercare di copiare ogni dettaglio biologico, i ricercatori si sono concentrati su una caratteristica chiave: un gradiente integrato che cambia lentamente nel tempo. Hanno costruito un dispositivo elettronico a strati, chiamato memristore di secondo ordine, composto da film sottili sovrapposti su un elettrodo trasparente. Inserendo uno strato molecolare speciale a base di zinco-porfirina e depositando poi con cura uno strato di ossido di alluminio sopra, hanno creato un gradiente di concentrazione di ossigeno stabile all’interno del dispositivo. Questo gradiente interno agisce in modo analogo alla differenza interno–esterno attraverso una membrana cellulare, immagazzinando la storia dell’attività elettrica passata.
Cambiamento lento e controllabile invece di commutazioni brusche
Molti memristori esistenti commutano bruscamente tra stati, il che è utile per la memoria digitale ma poco adatto a rappresentare variazioni graduali nel tempo. Nel nuovo dispositivo, gli ioni di ossigeno driftano e diffondono lentamente lungo il gradiente incorporato, producendo una conduttanza elettrica che evolve gradualmente e può persistere e rilassarsi per più di 100 secondi. Applicando brevi impulsi elettrici di diversa intensità da una sola direzione, il team poteva sia spingere ulteriormente gli ioni contro il gradiente sia lasciarli ritornare indietro, regolando finemente la conduttanza invece di attivarla o disattivarla. Questo comportamento, noto come dinamica di secondo ordine, ha permesso al dispositivo di creare circa 40 livelli intermedi distinti e di lunga durata — stati “pseudo-nonvolatili” che non sono fissati in modo permanente, ma rimangono stabili abbastanza a lungo da essere utili per l’apprendimento.

Come il dispositivo rimodella l’apprendimento nella pratica
Per dimostrare perché questo comportamento lento e guidato dal gradiente sia importante, gli autori hanno collegato il dispositivo direttamente a una regola di apprendimento comune usata nell’apprendimento per rinforzo, in cui un agente esplora ripetutamente un mondo e aggiorna quanto si fida di ogni azione. In questi algoritmi, un singolo parametro — il tasso di apprendimento — controlla quanto velocemente l’esperienza passata viene sovrascritta da nuove informazioni. Invece di scegliere quel tasso manualmente, lo hanno mappato sui cambiamenti di conduttanza dipendenti dal tempo del loro memristore. Subito dopo un impulso elettrico forte, la conduttanza del dispositivo cambia rapidamente; successivamente si assesta in aggiustamenti più lenti e piccoli. Tradurre questo rallentamento naturale nella regola di apprendimento significa che l’agente inizia esplorando con decisione e poi stabilizza gradualmente la propria strategia, proprio come un animale che inizialmente sperimenta ma poi affina le proprie abitudini.
Superare l’addestramento convenzionale in mondi che cambiano
I ricercatori hanno testato questo schema di apprendimento ispirato all’hardware su compiti di navigazione simulati in cui un veicolo autonomo deve trovare un percorso valido sotto copertura di comunicazione. In un mondo statico, il tasso di apprendimento guidato dal memristore ha ridotto il numero di iterazioni di training necessarie per raggiungere una buona soluzione di quasi il 70 percento rispetto a schemi fissi o regolati manualmente, riducendo anche oscillazioni instabili e scelte locali peggiori. Hanno poi reso il problema più difficile ampliando le mappe e cambiando le condizioni su più stadi, imitando un mondo che diventa più complesso nel tempo. Anche in quel caso, il pattern di apprendimento derivato dal dispositivo ha ridotto il numero totale di episodi di addestramento di oltre un terzo rispetto agli schemi lineari standard, adattandosi in modo fluido all’aumento della complessità del compito.
Cosa significa questo per le macchine future simili al cervello
Per il lettore non esperto, il messaggio centrale è che il team ha trasformato un trucco materiale microscopico — fissare un delicato gradiente di ossigeno — in un modo potente per controllare come le macchine apprendono nel tempo. Piuttosto che dipendere da impostazioni software accuratamente tarate a mano, il comportamento di apprendimento emerge naturalmente dalla lenta fisica interna del dispositivo. Questo suggerisce un futuro in cui l’hardware neuromorfico non si limita a memorizzare numeri ma incorpora regole di apprendimento nella sua struttura materiale, realizzando sistemi artificiali che possono adattarsi continuamente a nuove situazioni con meno energia e meno messa a punto umana.
Citazione: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0
Parole chiave: memristore, hardware neuromorfico, apprendimento per rinforzo, gradiente di ioni di ossigeno, apprendimento continuo