Clear Sky Science · tr
SVDHLA: simetrik değişken derinlikli hibrit öğrenme otomatı ve uygulaması
Makinelere Ne Zaman Vazgeçeceklerini Öğretmek
Modern öğrenme sistemleri sık sık basit ama hayati bir ikilemle karşılaşır: aynı seçeneği ne kadar süreyle denemeye devam etmeli, sonra yeni bir şeye mi geçmelidir? Bu makale klasik bir karar verme modeli için bu soruyu ele alıyor ve sisteme kendi ısrarcılığını ayarlama yeteneği verildiğinde daha hızlı, daha güvenilir olduğunu ve hatta daha iyi sinir ağı eğitimi konusunda yardımcı olabileceğini gösteriyor.

Neden Klasik Deneme–Yanılma Yetersiz Kalıyor
Çalışma, seçenekler arasında tekrar tekrar seçim yapan ve ödül ile cezadan öğrenen basit bir model olan öğrenme otomatı adlı uzun süredir var olan bir fikre dayanıyor. LK,N,K olarak bilinen yaygın bir versiyon, her seçeneği içsel durumların kısa bir merdiveni olarak temsil eder. Merdiven ne kadar derinse, otomatın o seçeneği bırakmadan önce o kadar çok ceza alması gerekir. Küçük bir derinlik sistemin çabuk fikrini değiştirmesine neden olur, keşfi teşvik ederken; büyük bir derinlik inatçı yapar ve işe benzeyenleri sömürmeyi tercih ettirir. Sorun şu ki, bu derinlik önceden sabitlenmelidir; oysa en iyi ayar probleme bağlı olarak büyük ölçüde değişir ve zamanla değişebilir. Durağan ortamlarda kötü bir seçim öğrenmeyi yavaşlatır; değişken ortamlarda ise sistemi eski davranışlara hapseder veya titrek ve kararsız hale getirebilir.
Kendini Ayarlayan Bir Israrcılık Duygusu
Bu sertliği aşmak için yazarlar SVDHLA adını verdikleri Symmetric Variable Depth Hybrid Learning Automaton’u tanıtıyor. Derinliği önceden kilitlemek yerine, SVDHLA klasik merdiven tabanlı otomatı, bu merdivenlerin ne kadar derin olacağını ayarlamakla görevli ikinci, daha küçük bir karar vericiye bağlar. Bu yardımcı, tüm sistem için üç basit eylemden birini seçer: her seçeneğin derinliğini bir artır, tüm derinlikleri bir azalt veya dur ve mevcut derinliği koru. Kararlarını, ana otomatın son dönemde ne kadar iyi performans gösterdiğine; en elverişli içsel durumlara ne sıklıkta ulaştığı ile seçenek değiştirmeye ne sıklıkta zorlandığı arasındaki oranla özetlenmiş şekilde dayandırır. Zamanla bu bir geri besleme döngüsü oluşturur: sistem çok fazla değişiyorsa yardımcı derinliği artırma eğiliminde olur ve daha sabırlı davranır; kötü seçeneklere yapışıyorsa derinliği küçültür ve daha hızlı tepki verir.

Yeni Öğreneni Sınamaya Koymak
Araştırmacılar SVDHLA’yı çeşitli bilgisayar benzetimli dünyalarda test ettiler. Bazılarında ödül desenleri sabitti; diğerleri zaman içinde öngörülemez şekilde değişiyor veya sık tekrarlanan seçimleri cezalandırıyordu. Bu senaryoların tamamında yeni yaklaşım, hem toplam ödül hem de pişmanlık—yani ideal bir karar vericinin elde edeceği ile karşılaştırıldığında kaçırılan fırsat—bakımlarından hem orijinal modele hem de daha yeni bir hibrit varyanta göre tutarlı biçimde daha iyi performans gösterdi. Temel avantaj, SVDHLA’nın kendi başına temkinli mi yoksa cesur mu davranması gerektiğini keşfedebilmesi ve koşullar değiştikçe bu tutumu ayarlayabilmesidir. Çok sayıda olası eylemin olduğu ve yalnızca bir ya da iki iyi seçeneğin bulunduğu zorlu durumlarda bile sistem, yapısını sonu gelmezce kurcalamak yerine hızla faydalı bir derinlik aralığına yerleşti.
Kuyruklardan Trafiğe ve Sinir Ağlarına
Bunun sadece oyuncak bir geliştirme olmadığını göstermek için yazarlar SVDHLA’yı iki pratik probleme uyguladılar. İlk olarak, görevlerin düzensiz biçimde geldiği ve sona erdiği simüle bir bilgisayar sisteminde bir sunucunun sıradaki hangi kuyruğu işlemesi gerektiğine karar vermek için kullandılar. Burada uyarlanabilir derinlik, zamanlandırıcıyı hem geleneksel öğrenme otomatlarından hem de softmax, üst güven sınırları ve Thompson örneklemesi gibi popüler bandit tarzı algoritmalardan daha düşük ortalama bekleme süreleri tutmada yardımcı oldu. İkinci olarak, SVDHLA’yı eğitim sırasında üniteleri rastgele kapatarak aşırı uyumu önleme tekniği olan dropout için bir denetleyici olarak kullandılar. Sabit bir dropout oranı kullanmak yerine SVDHLA, toplu (batch) bazında kayıp nasıl değişiyorsa buna göre dropout seviyesini artırıp azaltmama ya da koruma kararı öğrendi. Bu uyarlanabilir dropout, MNIST rakam tanıma görevinde önceki bir öğrenme-otomatı tabanlı denetleyiciden biraz daha yüksek doğruluk ve daha istikrarlı sonuçlar üretti.
Daha Akıllı Öğrenme Sistemleri İçin Ne Anlama Geliyor
Günlük terimlerle, SVDHLA deneme–yanılma yapan bir öğrenene ne kadar inatçı olması gerektiği konusunda kendi kendini ayarlayan bir his veriyor. İnsan bir mühendisin yeni seçenekleri deneme ile eskilere bağlı kalma arasındaki doğru dengeyi tahmin etmesine güvenmek yerine, sistem kendi başarılarını ve başarısızlıklarını ölçer ve ısrarcılığını buna göre ayarlar. Çalışma, bu basit ek uyum katmanının hem durağan hem de değişen ortamlarda performansı artırabileceğini ve kuyruk yöneticileri ve sinir ağları gibi daha büyük sistemlere entegre edilebileceğini gösteriyor. İleriye bakıldığında, benzer fikirler birçok diğer öğrenme yönteminin zihnini ne kadar hızlı değiştireceğini otomatik olarak kalibre etmesine yardımcı olabilir; böylece yapay karar vericiler hem daha dayanıklı hem de dağıtıma daha uygun hale gelir.
Atıf: Nikhalat-Jahromi, A., Saghiri, A.M. & Meybodi, M.R. SVDHLA: symmetric variable depth hybrid learning automaton and its application. Sci Rep 16, 14336 (2026). https://doi.org/10.1038/s41598-026-43271-8
Anahtar kelimeler: öğrenme otomatı, pekiştirmeli öğrenme, keşif sömürü dengesi, uyarlanabilir dropout, çok kollu bandit