Clear Sky Science · tr
Sürekli pekiştirmeli öğrenme için içsel gradyan oksijenle desteklenen ikinci dereceden memristörler
Donanımı öğretmenin önemi
Bilgisayarlar deneyimden öğrenmede giderek daha iyi oluyor, ancak günümüz yapay zekâsının çoğu hâlâ yüksek güç tüketen çiplerde tamamen yazılım olarak çalışıyor. Buna karşılık beynimiz bilgi depolamayı ve işlemeyi aynı yerde gerçekleştirir; zamanla doğal olarak uyumlanan yavaş, ince iyon akışları kullanır. Bu makale, bu nazik içsel gradyanları taklit eden yeni bir elektronik bileşen türü tanıtıyor; böylece donanım, görev ve çevre değiştikçe öğrenme hızını ayarlayabiliyor. Bu tür aygıtlar bir gün, sıfırdan başlamaya gerek kalmadan sürekli öğrenen, enerji açısından daha verimli ve beyne benzeyen makineler ortaya çıkarabilir.

Canlı hücrelerden esinlenen küçük bir aygıt
Çalışma, canlı hücrelerin zarları boyunca iyon yoğunluğu farklarını uzun süreli enerji manzaraları olarak kullanıp sinyal ve bellek için nasıl kullandıklarından esinleniyor. Her biyolojik detayı kopyalamaya çalışmak yerine araştırmacılar tek bir ana özelliği yeniden üretmeye odaklandı: zamanla yavaşça değişen yerleşik bir gradyan. Şeffaf bir elektrot üzerinde üst üste konmuş ince filmlerden oluşan, ikinci dereceden memristör adı verilen sandviç benzeri bir elektronik aygıt inşa ettiler. Özel bir çinko-porfirin moleküler katman ekleyip üzerine dikkatlice alüminyum oksit tabakası çöktürerek aygıt içinde kararlı bir oksijen yoğunluğu gradyanı yarattılar. Bu içsel gradyan, bir hücre zarındaki iç-dış farkına benzer şekilde davranarak geçmiş elektriksel etkinliğin bir kaydını saklıyor.
Ani anahtarlama yerine yavaş, kontrol edilebilir değişim
Mevcut birçok memristör durumlar arasında ani geçişler yapar; bu, sayısal bellek için iyidir ancak zaman içinde kademeli değişimi temsil etmede zayıftır. Yeni aygıtta oksijen iyonları yerleşik gradyan boyunca yavaşça sürüklenir ve difüze olur; bu da 100 saniyeden fazla sürebilen nazikçe evrilen bir elektriksel iletkenlik üretir. Tek yönden farklı şiddetlerde kısa elektrik darbeleri uygulayarak ekip, iyonları gradyana karşı daha ileri itebildi veya geri sürüklenmelerine izin vererek iletkenliği açıp kapatmak yerine hassas şekilde ayarlayabildi. İkinci dereceden dinamikler olarak bilinen bu davranış, aygıtın yaklaşık 40 ayrı, uzun ömürlü ara seviye—kalıcı olarak sabit olmayan ancak öğrenme için yeterince kararlı kalan “sözde kararsız olmayan” durum—oluşturmasına olanak sağladı.

Aygıtın uygulamada öğrenmeyi nasıl yeniden şekillendirdiği
Bu yavaş, gradyan tarafından yönlendirilen davranışın neden önemli olduğunu göstermek için yazarlar aygıtı, bir aracın dünyayı tekrar tekrar keşfettiği ve her eyleme ne kadar güvendiğini güncellediği pekiştirmeli öğrenmede yaygın olarak kullanılan bir öğrenme kuralına doğrudan bağladılar. Bu algoritmalarda tek bir parametre—öğrenme hızı—geçmiş deneyimin yeni bilgilerle ne kadar hızlı üzerine yazıldığını kontrol eder. Bu hızı elle seçmek yerine, onu memristörlerinin zamanla değişen iletkenlik değişikliklerine eşlediler. Güçlü bir elektriksel darbeyi takiben erken dönemde aygıt iletkenliği hızla değişirken; daha sonra daha yavaş, daha küçük ayarlara oturuyor. Bu doğal yavaşlamayı öğrenme kuralına çevirmek, ajanın başlangıçta cesurca keşfetmesine ve ardından stratejisini kademeli olarak istikrara kavuşturmasına olanak tanıyor; tıpkı başlangıçta denemeler yapan sonra alışkanlıklarını rafine eden bir hayvan gibi.
Değişen dünyalarda geleneksel eğitimi geride bırakmak
Araştırmacılar bu donanım kaynaklı öğrenme zamanlamasını, otonom bir aracın iletişim kapsaması altında iyi bir rota bulması gereken simüle edilmiş gezinme görevlerinde test ettiler. Statik bir dünyada memristör kaynaklı öğrenme hızı, sabit veya elle ayarlanmış zamanlamalara kıyasla iyi bir çözüm elde etmek için gereken eğitim yinelemelerinin sayısını neredeyse yüzde 70 oranında azalttı; aynı zamanda kararsız salınımları ve kötü yerel tercihleri de azalttı. Ardından haritaları büyütüp koşulları birden çok aşamada değiştirerek sorunu zorlaştırdılar; bu, zamanla daha karmaşık hale gelen bir dünyayı taklit ediyor. Orada bile aygıttan türetilen öğrenme deseni, standart doğrusal şemalara göre toplam eğitim bölüm sayısını üçte birden fazla azaltarak görevin ölçeklenmesine uyum sağladı.
Gelecekteki beyne benzer makineler için anlamı
Bir genel okuyucu için temel mesaj, ekibin mikroskobik bir malzeme hilesini—nazik bir oksijen gradyanını kilitlemeyi—zaman içinde makinelerin nasıl öğrendiğini kontrol etmenin güçlü bir yoluna dönüştürdüğü. Özenle elle ayarlanmış yazılım ayarlarına güvenmek yerine öğrenme davranışı, aygıtın kendi yavaş iç fiziğinden doğal olarak ortaya çıkıyor. Bu, nöromorfik donanımın yalnızca sayıları depolamakla kalmayıp öğrenme kurallarını malzeme yapısında somutlaştırdığı; yapay sistemlerin daha az enerji ve insan ince ayarıyla yeni durumlara sürekli uyum sağlayabileceği bir geleceği işaret ediyor.
Atıf: Ming, J., Wang, R., Fu, J. et al. Intrinsic gradient oxygen-driven second-order memristors for continual reinforcement learning. Nat Commun 17, 3367 (2026). https://doi.org/10.1038/s41467-026-70014-0
Anahtar kelimeler: memristör, nöromorfik donanım, pekiştirmeli öğrenme, oksijen iyonu gradyanı, sürekli öğrenme