Clear Sky Science · tr

Çok ajanlı pekiştirmeli öğrenme algoritmasına dayalı bilişsel nesnelerin interneti kaynak tahsis yöntemi

· Dizine geri dön

Aracınızın verisinin neden “taze” kalması gerekiyor

Günümüz otomobilleri konumları, hızları ve çevreleri hakkındaki bilgileri diğer araçlar ve yol kenarı donanımlarıyla sürekli paylaşıyor. Güvenlik özelliklerinin ve gelecekteki otonom sürüş işlevlerinin iyi çalışması için bu bilgilerin yalnızca doğru değil, aynı zamanda taze olması gerekir: bir saniye geciken bir fren uyarısı işe yaramayabilir. Bu makale, yoğun kablosuz ağlar üzerinden bu tür verileri mümkün olduğunca güncel tutmayı araştırıyor; araçların ne zaman ve nasıl iletim yapacaklarına kendi başlarına karar vermelerini sağlayan yeni bir öğrenme tabanlı kontrol yöntemi kullanılıyor.

Hava dalgalarını paylaşan akıllı yollar

Çalışma, binlerce bağlantılı aracın mevcut kullanıcılar —örneğin cep telefonu kullanıcıları— ile sınırlı radyo spektrumunu paylaştığı geleceğin yol ağını inceliyor. Bilişsel Nesnelerin İnterneti olarak adlandırılan bu ortam, araçların “nazik konuklar” olduğu varsayımına dayanıyor: frekansları yalnızca birincil kullanıcıları rahatsız etmediğinde ödünç alabilirler. Aynı zamanda araçların çarpışma uyarıları, trafik koordinasyonu ve eğlence hizmetleri için birbirleriyle ve baz istasyonlarıyla yeterince hızlı iletişim kurmaları gerekiyor. Bu talepleri dengelemek zordur çünkü araçlar hızlı hareket eder, sinyaller şehir blokları arasında dolaşırken zayıflar ve kullanılabilir kanallar an be an değişir.

Figure 1
Figure 1.

Sadece hız değil, tazelik ölçmek

Geleneksel ağ tasarımı genellikle veri hızını artırmaya veya ortalama gecikmeyi azaltmaya odaklanır. Ancak güvenlik açısından kritik araç mesajları için gerçekten önemli olan, en son durum güncellemesinin alıcıya ulaştığında ne kadar eski olduğudur. Yazarlar, son başarılı güncellemeden sonra zamanla artan ve yeni bir mesaj geldiğinde sıfırlanan Bilgi Yaşı (Age of Information) adlı bir ölçüt kullanıyor. Modellerinde her araç çifti veri parçalarını tekrarlı şekilde gönderiyor. Kablosuz bağlantı güçlü ve seçilen güç düzeyi yeterince yüksekse mevcut parça hızla temizlenir ve yaş düşer; bağlantı zayıfsa veya güç sınırlıysa kalan veri sonraki tura devreder ve yaş artmaya devam eder. Amaç, enerji tasarrufu yaparken birincil kullanıcıları parazitten koruyacak şekilde radyo kanallarını ve güç seviyelerini seçerek bu yaşı mümkün olduğunca düşük tutmaktır.

Arabaları deneme yanılma ile işbirliği yapmaya öğretmek

Kablosuz ortam hızla değiştiği ve her aracın yalnızca yerel bilgileri görebildiği için yazarlar problemi sabit bir formül yerine bir öğrenme görevi olarak kuruyor. Her araç, hangi kanalların meşgul göründüğü, radyo bağlantılarının ne kadar güçlü olduğu, gönderilecek verinin ne kadar kaldığı ve son güncellemesinin ne kadar eski olduğu gibi durumunu tekrarlayan gözlemlerle alan akıllı bir ajan olarak davranıyor. Bu kısmi görüşe dayanarak, kanal seçimi (hangi kanalın kullanılacağı ya da sessiz kalınacağı gibi ayrık bir tercih) ile iletim gücünün miktarı (sürekli bir tercih) kombinasyonunu içeren bir eylem seçiyor. Eylemden sonra sistem, bilginin ne kadar taze olduğu, ne kadar güç kullanıldığı ve herhangi bir birincil kullanıcının rahatsız edilip edilmediğini ölçüyor. Bu geri bildirim, ajanları birçok simülasyon bölümü boyunca daha iyi ortak kararlara yönlendiren bir ödül sinyaline dönüştürülüyor.

Figure 2
Figure 2.

Karma kararlar için uyarlanmış bir öğrenme algoritması

Bu ajanları eğitmek için yazarlar, Proximal Policy Optimization adlı popüler bir yöntemin geliştirilmiş çok ajanlı bir versiyonunu geliştiriyor. IMAPPO adını verdikleri varyant, küresel durumu gören ve tüm araçların birleşik eylemlerinin ne kadar iyi olduğunu değerlendiren merkezi bir eğitim modülü kullanırken, her bireysel araç gerçek zamanlı olarak kendi başına uygulayabileceği özel bir karar kuralı öğreniyor. Önemli bir yenilik, hem kanalın açık/kapalı tercihini hem de olası güç seviyelerinin sürekli aralığını doğal olarak işleyebilen geliştirilmiş bir karar ağıdır. Izgara benzeri şehir yollarının simülasyonlarında, araçlar ve baz istasyonları gerçekçi konumlara yerleştirildiğinde ve zayıflama ile parazit gibi radyo etkileri dahil edildiğinde, önerilen yöntem birkaç gelişmiş öğrenme algoritması ve rastgele bir temel yöntemle karşılaştırılıyor.

Daha taze veri, daha az enerji

Sonuçlar, yeni yöntemin bilgiyi belirgin şekilde daha taze tutarken aynı zamanda daha az güç tüketebildiğini gösteriyor. Farklı araç sayıları ve gönderilecek farklı veri miktarları için IMAPPO, basit rastgele erişime kıyasla ortalama Bilgi Yaşını yaklaşık yarıya kadar azaltabiliyor ve diğer gelişmiş öğrenme yöntemlerini de anlamlı marjlarla geride bırakıyor. Aynı zamanda araçların kullandığı toplam gücü azaltarak pil ömrünü korumaya ve diğer spektrum kullanıcılarına olan paraziti sınırlamaya yardımcı oluyor. Sıradan bir okuyucu için bunun anlamı şu: kablosuz “yolda” kimin ne zaman ve ne kadar yüksek sesle konuşacağını öğrenme temelli daha akıllı bir kontrol, bağlantılı ve otonom araçları daha güvenli, daha verimli ve paylaşmak zorunda oldukları kalabalık hava dalgalarına daha saygılı hale getirebilir.

Atıf: Wang, R., Shen, Y., Wang, D. et al. A cognitive internet of things resource allocation method based on multi-agent reinforcement learning algorithm. Sci Rep 16, 7756 (2026). https://doi.org/10.1038/s41598-026-36380-x

Anahtar kelimeler: bağlantılı araçlar, kablosuz spektrum paylaşımı, bilgi yaşı, pekiştirmeli öğrenme, nesnelerin interneti