Clear Sky Science · tr

Mitsubishi RV-2AJ robot kolu için sağlam yol izleme sağlayan bulanık‑TD3 melez pekiştirmeli öğrenme çerçevesi

· Dizine geri dön

Gerçek Dünya İşleri İçin Daha Akıllı Robot Kollar

Endüstriyel robot kolları aynı hareketi tekrar etmekte mükemmeldir, ancak iş veya çevre biraz değiştiğinde tökezleyebilirler. Bu makale, yaygın bir fabrika tipi robot koluna aynı anda hem klasik bir kontrolörün kararlılığını hem de yapay zekânın uyum yeteneğini kazandırmanın yeni bir yolunu sunar. Amaç basit ama zorludur: makinenin mükemmel matematiksel modeline ihtiyaç duymadan, yük değişse veya dışarıdan itme ve rahatsızlıklar gelse bile kolun karmaşık 3B yolları hassas şekilde izlemesini sağlamak.

Robotlar İçin Kesin Hareket Neden Zordur

Burada incelenen 5-eklemli Mitsubishi RV‑2AJ gibi modern robot kolları karmaşık mekanik sistemlerdir. Eklemler birbiriyle etkileşir, hareketleri güçlü şekilde doğrusal olmayan özellikler taşır ve gerçek fabrikalarda sürtünme, titreşim, sensör gürültüsü ve bilinmeyen yüklerle başa çıkmaları gerekir. PID gibi klasik kontrol yöntemleri ayarlanması kolay ve yaygın olarak kullanılır, ancak robot hızlı hareket ettiğinde, farklı nesneler taşıdığında veya beklenmedik kuvvetlerle karşılaştığında zorlanırlar. Öte yandan derin pekiştirmeli öğrenme prensipte deneme‑yanılma yoluyla mükemmel kontrol politikaları öğrenebilir, fakat pratikte yavaş öğrenebilir, ilk başta düzensiz davranışlar gösterebilir ve mühendislerin yorumlamasını veya güvenmesini zorlaştıran bir “kara kutu” olabilir.

İnsan Kuralları ile Makine Öğrenimini Harmanlamak

Bu uçurumu kapatmak için yazar, yorumlanabilir şekilde uzman kurallarını kodlayan bir bulanık mantık sistemi ile TD3 adlı güçlü bir pekiştirmeli öğrenme yöntemini eşleştiren melez bir kontrolör öneriyor. Bu tasarımda bulanık kısım, her eklemin hedefinden ne kadar saptığını ve bu hatanın ne kadar hızlı değiştiğini izler. Ardından deneyimli bir operatörün yapacağı gibi kompakt bir “eğer–ise” kural setine göre anlık düzeltici torklar uygular. Bu, kararlı ve anlaşılır bir temel davranış sağlar. Aynı zamanda TD3 ajanı, simülasyon yoluyla tekrar tekrar öğrenerek, hareketi ince ayarlayan daha küçük bir “rezidüel” torku nasıl ekleyeceğini öğrenir; bu, doğrusal olmayan sürtünme veya taşınan yükteki kalıcı değişimler gibi modellenmesi zor etkileri telafi eder. İki tork sinyali her eklemde basitçe toplanır; böylece robot her zaman açık kurallar ile öğrenilmiş uyumun ortak sürüşüyle hareket eder.

Figure 1
Figure 1.

Zorlu Yollar İçin Dijital Bir Test Tezgâhı

Melez kontrolör, çoklu cisim simülasyonu araçlarıyla oluşturulmuş Mitsubishi kolunun ayrıntılı sanal kopyasında eğitilip test edilir. Bu ortam, kolun rijit bağlantılarını, eklem sınırlarını ve sensör kusurlarını yeniden üretir; böylece öğrenme algoritması gerçekçi fiziksel koşullarla karşılaşırken güvenle keşif yapabilir. Araştırmacılar, tüm eklemlerin düzgün ve koordineli hareketini gerektiren N şekilli, helisel ve spiral yollar gibi zorlu 3B yörüngelerle kontrolörü test ederler. Ayrıca bağlantı kütleleri ve eylemsizlikleri değiştirilerek ve çarpma ya da dış itme taklidi yapan ani tork darbeleri eklenerek belirsizlik enjekte ederler. Bu düzenekte bulanık mantık bileşeni kolun kontrolsüz davranmamasını sağlar; TD3 ajanı ise doğruluk, pürüzsüzlük ve enerji verimliliğini önemseyen bir ödül sinyalini maksimize ederek performansı kademeli olarak iyileştirir.

Melezin Rakiplerini Geride Bırakması

Tüm test edilen yörüngelerde, bulanık‑TD3 melez kontrolör saf TD3 kontrolörünü ve TD3 ile standart bir PID kontrolörün daha önce birleştiği hibriti geride bırakır. Zaman içinde biriken sapma ölçümleri, yalnızca TD3 ile karşılaştırıldığında yaklaşık %28–50 arası, PID tabanlı melezle karşılaştırıldığında ise yaklaşık %15–29 azalma gösterir. Robotun fiziksel parametreleri bozulup dış müdahaleler uygulandığında bile yeni kontrolör avantajını korur; hataları TD3’ye göre yaklaşık %23–34, PID‑TD3’e göre %11–17 oranında azaltır. Ek analizler öğrenme sürecinin düzgün şekilde yakınsadığını, genel davranışın sayısal olarak kararlı olduğunu ve bulanık kuralların sezgisel desenlerde aktive olduğunu—normal hareket sırasında nazik ve sık düzeltmeler, kol hedefinden uzaklaştığında ise daha güçlü ve daha seyrek müdahaleler—gösterir.

Figure 2
Figure 2.

Hassasiyet ile Enerji Kullanımı Arasındaki Denge

Araştırma ayrıca kontrolörün biraz hassasiyetten feragat ederek kayda değer enerji tasarrufu sağlayacak şekilde ayarlanabileceğini gösterir. Ödül fonksiyonundaki tek bir ağırlığın ayarlanmasıyla algoritma, ortalama eklem torkunu %20’den fazla azaltmayı öğrenirken takip hatasını yalnızca biraz artırır. Bu ayarlanabilirlik, aynı kontrol şemasının mikro düzey doğruluktan ziyade verimliliğin daha önemli olduğu görevler veya tam tersi için tüm sistemi yeniden tasarlamaya gerek kalmadan uyarlanabileceği anlamına gelir.

Gelecek Robotlar İçin Anlamı

Günlük ifadeyle, bu çalışma daha güvenilir ve anlaşılır robot kolları için umut vadeden bir reçete sunar: hızlı düzeltmeler ve güvenlik için insan tarafından okunabilir net kurallar görevlendirilsin, öğrenen bir algoritma ise performansı zaman içinde sessizce iyileştirsin. Sonuç, karmaşık yolları daha doğru takip eden, dış müdahalelere karşı dirençli, enerjiyi daha akıllıca kullanan ve mühendisler için açıklanabilir kalan bir kontrolördür. Bu tür melez tasarımlar, gelişmiş yapay zekâ destekli kontrolü laboratuvardan gerçek fabrikalara, depolara ve hizmet robotlarına taşımada yardımcı olabilir; buralarda güvenilirlik ve şeffaflık ham zekâ kadar önemlidir.

Atıf: Hazem, Z.B. A fuzzy-TD3 hybrid reinforcement learning framework for robust trajectory tracking of the Mitsubishi RV-2AJ robotic arm. Sci Rep 16, 12269 (2026). https://doi.org/10.1038/s41598-026-42615-8

Anahtar kelimeler: robotik kol kontrolü, pekiştirmeli öğrenme, bulanık mantık, yol izleme, sağlam otomasyon