Clear Sky Science · pt
Memristores de segunda ordem dirigidos por gradiente intrínseco de oxigênio para aprendizagem por reforço contínua
Por que ensinar hardware a aprender importa
Os computadores estão melhorando em aprender com a experiência, mas a maior parte da inteligência artificial atual ainda roda inteiramente em software sobre chips que consomem muita energia. Nossos cérebros, em contraste, armazenam e processam informação no mesmo lugar, usando fluxos lentos e sutis de íons que se adaptam naturalmente ao longo do tempo. Este artigo apresenta um novo tipo de componente eletrônico que imita esses gradientes internos suaves, permitindo que o hardware ajuste a velocidade de aprendizagem conforme a tarefa e o ambiente mudam. Dispositivos assim poderiam, um dia, levar a máquinas mais eficientes e semelhantes ao cérebro que continuam aprendendo continuamente sem recomeçar do zero.

Um dispositivo minúsculo inspirado em células vivas
O trabalho se inspira em como células vivas usam diferenças na concentração de íons através de suas membranas como paisagens energéticas duradouras para sinalização e memória. Em vez de tentar copiar cada detalhe biológico, os pesquisadores se concentraram em reproduzir uma característica chave: um gradiente embutido que muda lentamente ao longo do tempo. Eles construíram um dispositivo eletrônico em formato de sanduíche, chamado memristor de segunda ordem, composto por filmes finos empilhados sobre um eletrodo transparente. Ao inserir uma camada molecular especial de zino-porfirina e então depositar cuidadosamente uma camada de óxido de alumínio por cima, criaram um gradiente de concentração de oxigênio estável dentro do dispositivo. Esse gradiente interno funciona de maneira análoga à diferença interno–externo através de uma membrana celular, armazenando a história da atividade elétrica passada.
Mudança lenta e controlável em vez de comutação abrupta
Muitos memristores existentes mudam abruptamente entre estados, o que é bom para memória digital, mas ruim para representar mudanças graduais ao longo do tempo. No novo dispositivo, íons de oxigênio derivam e difundem lentamente ao longo do gradiente embutido, produzindo uma condutância elétrica em evolução suave que pode persistir e relaxar por mais de 100 segundos. Ao aplicar pulsos elétricos curtos de diferentes intensidades a partir de uma única direção, a equipe pôde empurrar os íons contra o gradiente ou deixá-los derivar de volta, ajustando finamente a condutância em vez de alterná-la completamente. Esse comportamento, conhecido como dinâmica de segunda ordem, permitiu que o dispositivo criasse cerca de 40 níveis intermediários distintos e duradouros — estados “pseudo-não voláteis” que não são permanentemente fixos, mas permanecem estáveis tempo suficiente para serem úteis para o aprendizado.

Como o dispositivo remodela o aprendizado na prática
Para mostrar por que esse comportamento lento e dirigido por gradiente é importante, os autores conectaram o dispositivo diretamente a uma regra de aprendizado comum usada em aprendizado por reforço, onde um agente explora repetidamente um mundo e atualiza o quanto confia em cada ação. Nesses algoritmos, um único parâmetro — a taxa de aprendizado — controla com que rapidez a experiência passada é sobrescrita por novas informações. Em vez de escolher essa taxa manualmente, eles a mapearam para as mudanças de condutância dependentes do tempo do memristor. Logo após um pulso elétrico forte, a condutância do dispositivo muda rapidamente; mais tarde, ela se estabelece em ajustes mais lentos e menores. Traduzir essa desaceleração natural para a regra de aprendizado faz com que o agente comece explorando de forma ousada e depois estabilize gradualmente sua estratégia, muito parecido com um animal que inicialmente experimenta, mas depois refina seus hábitos.
Superando o treinamento convencional em mundos em mudança
Os pesquisadores testaram esse cronograma de aprendizagem inspirado em hardware em tarefas de navegação simuladas onde um veículo autônomo deve encontrar um bom caminho sob cobertura de comunicação. Em um mundo estático, a taxa de aprendizado dirigida pelo memristor reduziu o número de iterações de treinamento necessárias para alcançar uma boa solução em quase 70% comparado com cronogramas fixos ou ajustados manualmente, ao mesmo tempo em que diminuiu oscilações instáveis e escolhas locais ruins. Eles então tornaram o problema mais difícil ampliando os mapas e mudando as condições ao longo de múltiplas etapas, imitando um mundo que se torna mais complexo com o tempo. Mesmo ali, o padrão de aprendizagem derivado do dispositivo reduziu o número total de episódios de treinamento em mais de um terço em relação a esquemas lineares padrão, adaptando-se de forma suave conforme a tarefa aumentava de escala.
O que isso significa para futuras máquinas semelhantes ao cérebro
Para um leitor leigo, a mensagem central é que a equipe transformou um truque microscópico de material — fixar um gradiente suave de oxigênio — em uma forma poderosa de controlar como máquinas aprendem ao longo do tempo. Em vez de depender de ajustes cuidadosamente feitos em software, o comportamento de aprendizagem emerge naturalmente da própria física interna lenta do dispositivo. Isso sugere um futuro em que o hardware neuromórfico não apenas armazene números, mas incorpore regras de aprendizado em sua estrutura material, criando sistemas artificiais que podem se adaptar continuamente a novas situações com menos energia e menos ajuste humano fino.
Citação: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0
Palavras-chave: memristor, hardware neuromórfico, aprendizado por reforço, gradiente de íons de oxigênio, aprendizado contínuo