Clear Sky Science · tr
Heterojen çok ajanlı pekiştirmeli öğrenme için diferansiyel strateji entegrasyonu ile iki seviyeli grafik dikkat paradigması
Neden birçok yapay zekânın işbirliği öğrenmesi gerekiyor
Robot ekiplerinden kendi kendine giden arabalara, drone sürülerinden strateji oyunlarındaki sanal oyunculara kadar birçok modern sistem, birlikte çalışan çok sayıda yapay ajana dayanıyor. Ancak bu dijital takım arkadaşlarının koordine olması göründüğünden daha zordur; özellikle her birinin farklı yetenekleri ve yalnızca kısmi bir görüşü olduğunda. Bu makale, bu tür takımların doğru bilgiyi paylaşmasını, daha iyi grup kararları almasını ve önceki yaklaşımlardan çok daha büyük ve çeşitli problemlere ölçeklenmesini sağlayan yeni bir düzenleme biçimini tanıtıyor.

Gruplar, rehberler ve gündelik takım çalışması
Yazarlar, insanların ve hayvanların işbirliğini yansıtan basit bir fikirden başlıyor: takımı rollere ve gruplara ayırmak. Bir ofis projesinde, pazarlama, mühendislik ve finans üyeleri kendi becerilerini getirir ve her gruptaki bir yönetici yerel seçimleri koordine ederken diğer yöneticilerle iletişim kurar. Bundan esinlenen önerilen yöntem, İki Seviyeli Grafik Dikkat Paradigması (Bi-GAP) olarak adlandırılıyor ve yapay ajanları türlerine göre kümeleyerek organizasyon sağlıyor. Her grup içinde birkaç "üye" ajan gerçekten ortamda eylem gerçekleştirirken, sanal bir "rehber" ajan daha geniş bir bakış açısı toplar ve doğrudan eylemde bulunmadan stratejik yönlendirme sağlar.
Gruplar içinde ve arasında akıllı iletişim
Bi-GAP’in temel yeniliği bu ajanların nasıl iletişim kurduklarında yatıyor. Her ajanın her biriyle konuşmasına izin vermek—ki takım büyüdükçe hızla bunaltıcı olur—yerine yöntem, graf üzerinde uygulanmış iki katmanlı bir dikkat mekanizması kullanıyor. İlk seviyede, aynı türden üye ajanlar bilgiyi seçici olarak paylaşır; mevcut durumlarıyla en alakalı takım arkadaşlarına odaklanırlar. O grubun rehber ajanı tüm üyelerini dinler, girdilerini tartar ve bilgilendirici bir özet oluşturur. İkinci seviyede ise yalnızca farklı gruplardaki rehber ajanlar birbirleriyle konuşur; burada da dikkat kullanılarak en önemli ortaklara ağırlık verilir. Bu iki aşamalı yapı mesaj yükünü azaltır, gürültüyü filtreler ve eksik veya yanıltıcı bilgilere karşı sistemi daha dayanıklı hale getirir.

Büyük resim tavsiyesini yerel içgüdülerle harmanlamak
İyi koordinasyon yalnızca iletişim gerektirmez; ayrıca farklı bakış açılarını tek bir karara dönüştürecek bir füzyon yolu gerekir. Bi-GAP, her hareket eden ajana iki yönlendirme kaynağı vererek bunu ele alır: kendi yerel muhakemesi ve rehber ajanının ürettiği tavsiye. Bunları her zaman eşit şekilde ele almak yerine yöntem, önerilen iki stratejiyi karşılaştırır. Çoğunlukla hemfikir olduklarında, üye ajan kendi ayrıntılı görüşüne daha fazla güvenir ve ince tepkileri korur. Güçlü bir ayrışma olduğunda ise rehberin daha geniş perspektifine daha fazla ağırlık verilir ve ajan grup düzeyindeki plana daha uygun bir eyleme doğru yönlendirilir. Bu uyarlanabilir harmanlama, hızlı yerel tepkiler ile kararlı, takım düzeyinde koordinasyon arasındaki dengeyi sağlamaya yardımcı olur.
Sanal savaşlar ve kovalamaca oyunlarında test
Bi-GAP’in gerçek faydalar sunup sunmadığını görmek için araştırmacılar onu iki zorlu test ortamında değerlendirdiler. Birincisi, karışık birliklerin güçlü bir yerleşik rakibe karşı hareket ve saldırıları koordine etmesi gereken gerçek zamanlı strateji oyunu StarCraft II üzerine kurulu bir muharebe simülatörü. İkincisi ise daha hızlı ve daha yavaş, farklı yeteneklere sahip ajanların sürekli hareket halinde birbirlerini kovaladığı veya kaçtığı bir avcı–av ortamı. Her iki ayarda da, hem tam hem kısmi görüş altında, yeni yöntem birkaç önde gelen çok ajanlı pekiştirmeli öğrenme tekniğiyle karşılaştırıldı. Bi-GAP sadece daha yüksek kazanma oranları ve ödüller elde etmekle kalmadı, aynı zamanda etkili davranışları daha hızlı öğrendi ve ajan sayısı ile çeşitliliği arttıkça bile kararlı kaldı.
Geleceğin yapay zeka takımları için anlamı
Sade ifadeyle, çalışma, büyük ve karışık AI takımlarına hafif ama iyi yapılandırılmış bir hiyerarşi vermenin onları çok daha iyi işbirlikçileri haline getirebileceğini gösteriyor. Benzer ajanları gruplayarak, rehber ajanların gruplar arası koordinasyon sağlamasına izin vererek ve küresel tavsiyeyi yerel yargıyla harmanlayarak Bi-GAP, ya çok merkezileşmiş ya da aşırı parçalanmış önceki yaklaşımlardan daha verimli bir şekilde karmaşık görevleri yönetiyor. Çok ajanlı sistemler robotikte, trafik kontrolünde, sanal oyunlarda ve diğer gerçek dünya uygulamalarında yaygınlaştıkça, bu tür iletişim ve karar verme düzenleri büyüyen dijital kalabalıkların kafa karışıklığı içindeki bir sürü yerine iyi eğitilmiş bir takım gibi hareket etmesine yardımcı olabilir.
Atıf: Li, Y., Zhang, Z. & Wang, J. Bi-level graph attention paradigm with differential strategy integration for heterogeneous multi-agent reinforcement learning. Sci Rep 16, 12156 (2026). https://doi.org/10.1038/s41598-026-41722-w
Anahtar kelimeler: çok ajanlı pekiştirmeli öğrenme, heterojen ajanlar, grafik dikkat, koordinasyon, hiyerarşik kontrol