Clear Sky Science · es

Memristores de segundo orden impulsados por gradientes intrínsecos de oxígeno para aprendizaje por refuerzo continuo

2026-03-03 · Volver al índice

Por qué importa enseñar a aprender al hardware

Los ordenadores son cada vez mejores aprendiendo de la experiencia, pero la mayor parte de la inteligencia artificial actual sigue ejecutándose enteramente en software sobre chips que consumen mucha energía. Nuestro cerebro, en cambio, almacena y procesa información en el mismo lugar, usando flujos lentos y sutiles de iones que se adaptan de forma natural con el tiempo. Este artículo presenta un nuevo tipo de componente electrónico que imita esos suaves gradientes internos, permitiendo que el hardware ajuste su velocidad de aprendizaje a medida que cambian la tarea y el entorno. Tales dispositivos podrían, en el futuro, dar lugar a máquinas más eficientes y parecidas al cerebro que sigan aprendiendo de forma continua sin empezar de cero.

Un dispositivo diminuto inspirado en las células vivas

El trabajo se inspira en cómo las células vivas utilizan diferencias en la concentración de iones a través de sus membranas como paisajes energéticos duraderos para la señalización y la memoria. En lugar de intentar copiar cada detalle biológico, los investigadores se centraron en reproducir una característica clave: un gradiente incorporado que cambia lentamente con el tiempo. Construyeron un dispositivo electrónico en forma de sándwich, llamado memristor de segundo orden, formado por películas finas apiladas sobre un electrodo transparente. Al insertar una capa molecular especial de zinc-porfirina y luego depositar cuidadosamente una capa de óxido de aluminio encima, crearon un gradiente estable de concentración de oxígeno dentro del dispositivo. Este gradiente interno actúa de forma parecida a la diferencia interior-exterior a través de la membrana celular, almacenando una historia de la actividad eléctrica pasada.

Cambio lento y controlable en lugar de conmutación brusca

Muchos memristores existentes cambian de forma abrupta entre estados, lo que es bueno para la memoria digital pero malo para representar cambios graduales a lo largo del tiempo. En el nuevo dispositivo, los iones de oxígeno se desplazan y difunden lentamente a lo largo del gradiente incorporado, produciendo una conductancia eléctrica que evoluciona de forma suave y que puede persistir y relajarse durante más de 100 segundos. Aplicando pulsos eléctricos cortos de distintas intensidades desde una sola dirección, el equipo pudo empujar los iones más allá del gradiente o dejarlos derivar de vuelta, ajustando finamente la conductancia en lugar de conmutarla totalmente. Este comportamiento, conocido como dinámica de segundo orden, permitió al dispositivo generar alrededor de 40 niveles intermedios distintos y duraderos—estados “pseudo-no volátiles” que no están fijados permanentemente, pero que permanecen estables el tiempo suficiente para ser útiles en el aprendizaje.

Cómo el dispositivo remodela el aprendizaje en la práctica

Para mostrar por qué este comportamiento lento impulsado por gradientes importa, los autores conectaron el dispositivo directamente a una regla de aprendizaje común en aprendizaje por refuerzo, donde un agente explora repetidamente un mundo y actualiza cuánto confía en cada acción. En estos algoritmos, un único parámetro—la tasa de aprendizaje—controla la rapidez con la que la experiencia pasada se sobrescribe con información nueva. En lugar de elegir esa tasa manualmente, la mapearon a los cambios de conductancia dependientes del tiempo de su memristor. Al principio, tras un pulso eléctrico fuerte, la conductancia del dispositivo cambia rápido; más tarde, se asienta en ajustes más lentos y pequeños. Traducir esta desaceleración natural a la regla de aprendizaje significa que el agente comienza explorando con audacia y luego estabiliza gradualmente su estrategia, de modo similar a un animal que inicialmente experimenta pero después refina sus hábitos.

Superando el entrenamiento convencional en mundos cambiantes

Los investigadores probaron este programa de aprendizaje inspirado en hardware en tareas de navegación simuladas donde un vehículo autónomo debe encontrar una buena ruta bajo cobertura de comunicaciones. En un mundo estático, la tasa de aprendizaje impulsada por el memristor redujo el número de iteraciones de entrenamiento necesarias para alcanzar una buena solución en casi un 70 por ciento en comparación con esquemas fijos o ajustados manualmente, al tiempo que también redujo oscilaciones inestables y malas elecciones locales. Luego hicieron el problema más difícil ampliando los mapas y cambiando las condiciones en múltiples etapas, emulando un mundo que se vuelve más complejo con el tiempo. Incluso allí, el patrón de aprendizaje derivado del dispositivo redujo el número total de episodios de entrenamiento en más de un tercio respecto a los esquemas lineales estándar, adaptándose de forma suave a medida que la tarea escalaba.

Qué supone esto para futuras máquinas tipo cerebro

Para un lector no especializado, el mensaje principal es que el equipo ha convertido un truco material microscópico—bloquear un suave gradiente de oxígeno—en una forma potente de controlar cómo aprenden las máquinas a lo largo del tiempo. En lugar de depender de ajustes de software cuidadosamente calibrados a mano, el comportamiento de aprendizaje emerge de forma natural de la física interna lenta del dispositivo. Esto sugiere un futuro en el que el hardware neuromórfico no solo almacene números, sino que incorpore reglas de aprendizaje en su estructura material, creando sistemas artificiales que puedan adaptarse continuamente a nuevas situaciones con menos energía y menos afinado humano.

Cita: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0

Palabras clave: memristor, hardware neuromórfico, aprendizaje por refuerzo, gradiente de iones de oxígeno, aprendizaje continuo