Clear Sky Science · tr

SuperPoint ve anlamsal geometrik dinamik öznitelik algılama kullanarak geliştirilen görsel-inertial SLAM

· Dizine geri dön

Hareketli bir dünyada daha akıllı navigasyon

Robotların, dronların ve artırılmış gerçeklik başlıklarının çevre hareket ederken konumlarını kesin olarak bilmesi gerekir. Geleneksel haritalama sistemleri yürüyen insanlar veya geçen arabalar yüzünden şaşırabilir; bu da dijital okların yoldan sapmasına veya bir robotun yolunu yanlış değerlendirmesine yol açabilir. Bu çalışma, modern yapay zeka araçları ve hareket sensörleri kullanarak yoğun, değişen sahnelerde konumu daha güvenilir takip etmek üzere tasarlanmış bir navigasyon yöntemi olan SuperDynaSLAM’i tanıtıyor.

Figure 1. Hareket halindeki insanları ve araçları görmezden gelerek yoğun iç ve dış mekan sahnelerini eşleyen bir robot veya başlık.
Figure 1. Hareket halindeki insanları ve araçları görmezden gelerek yoğun iç ve dış mekan sahnelerini eşleyen bir robot veya başlık.

Hareketi görmek ve hissetmek birlikte

Birçok navigasyon sistemi haritalama ve aynı zamanda konum takibi için kameralara ve SLAM adı verilen bir tekniğe dayanır. Eski sistemler görüntüde el işçiliği kurallarla ayırt edici noktalar seçer; bunlar sakin, iyi aydınlatılmış sahnelerde iyi çalışır ama kamera sarsıldığında veya aydınlatma hızla değiştiğinde sık sık başarısız olur. SuperDynaSLAM, SuperPoint adında öğrenilmiş bir öznitelik bulucu kullanarak bu ön uçu yükseltir; SuperPoint gerçek sahnelerin birçok görünümünde eğitildiği için kamera şiddetle hareket ettiğinde veya görünüm büyük ölçüde değiştiğinde bile güvenilir görsel demirbaşları tanıyabilir. Sistem ayrıca kamera kareleri arasındaki cihazın nasıl döndüğünü ve ivmelendiğini ölçen bir yerleşik hareket sensörü biriminden yararlanır.

Arka planı hareketli nesnelerden ayırmak

Görüşe dayalı herhangi bir gezgin için büyük bir zorluk, görüşteki her şeyin sabit olmamasıdır. İnsanlar, arabalar ve diğer hareketli nesneler yanıltıcı görsel ipuçları oluşturur. SuperDynaSLAM bunu iki aşamalı bir süreçle ele alır. Önce Mask R-CNN adlı derin öğrenme programını her görüntüye uygular ve araçlar ile yayalar gibi hareket edebilecek nesnelerin kaba sınırlarını çizer. SuperPoint’in bulduğu öznitelik noktaları daha sonra bulundukları yere göre arka plan, araçlar ve yayalar olmak üzere üç basit türe ayrılır. Eşleme yalnızca aynı tür içinde yapılmasına izin verilir; bu, bir bina köşesinin geçen bir arabayla eşlenmesi gibi bariz karışıklıkları zaten azaltır.

Gerçekten neyin hareket ettiğini görmek için hareket ipuçlarını kullanmak

Bununla birlikte, her araba veya insan biçimli bölge o anda gerçekten hareket ediyor demek değildir. Park halindeki bir araba haritaya yardımcı olmalı, zarar vermemelidir. İkinci aşamada SuperDynaSLAM, hareket sensörü okumalarını kullanarak sahnedeki gerçekten sabit bir noktanın iki kamera görüntüsü arasında nasıl kayması gerektiğini hesaplar. Bunu, hareket edebilecek her nesne üzerindeki birkaç örnek nokta için beklenen kayma ile kameranın gerçekten gördüğü kaymayı karşılaştırarak yapar. Bir nesnedeki noktalar beklenen yoldan çok uzaklaşıyorsa sistem o nesnenin hareket ettiğine karar verir ve tüm noktalarını güvenilmez olarak işaretler. Yakın kalırlarsa, nesne sabit sahnenin bir parçası olarak değerlendirilir. Bu seçici filtreleme, yanıltıcı bilgiyi atarken mümkün olduğunca fazla faydalı detayı korumaya olanak tanır.

Figure 2. Hareket sensörü ipuçlarını ve görüntü değişikliklerini karşılaştırarak haritadan hareketli nesneler üzerindeki noktaları kaldıran sistem.
Figure 2. Hareket sensörü ipuçlarını ve görüntü değişikliklerini karşılaştırarak haritadan hareketli nesneler üzerindeki noktaları kaldıran sistem.

Sanal sokaklarda, ofislerde ve pazarlarda test edildi

Araştırmacılar SuperDynaSLAM’i üç zorlu veri setinde test etti. Bir set, hızlı hareket ve değişen ışık içeren gerçek iç mekan uçuşlarından geldi. Diğerinde trafik seviyeleri boş sokaklardan yoğun akışa kadar artırılabilen simüle edilmiş bir şehir ve otopark vardı. Üçüncüsü ise hareketli alıcılarla ve karmaşık ortamlarla dolu gerçek ofisler, evler, pazarlar ve kafelerde gezen bir robottu. Bu denemelerin çoğunda, özellikle çok sayıda hareketli nesne veya keskin kamera hareketi olduğunda, SuperDynaSLAM en önde gelen, daha eski görsel özniteliklere veya yalnızca tek tip işarete dayanan sistemlere göre gerçek yolu daha yakından ve daha az titreşimle izledi.

Günlük navigasyon için bunun anlamı

Bir kullanıcı için ana mesaj, SuperDynaSLAM’in makinelerin bir sahnede sağlam ve güvenilir olan şeylere odaklanmasına ve dikkat dağıtan hareketleri görmezden gelmesine yardım etmesidir. Öğrenilmiş görsel öznitelikleri, nesne farkındalığını ve hareket algılamayı birleştirerek daha doğru haritalar oluşturur ve konumunu kalabalık veya hızlı değişen ortamlarda bile daha istikrarlı takip eder. Bu, daha yüksek bir hesaplama maliyeti getirse ve sistem hâlâ alışılmadık hareketli nesneleri kaçırabilse de yaklaşım, sürücüsüz arabalar, teslimat robotları ve etkileyici sanal ya da karma gerçeklik cihazları için daha güvenilir navigasyon yönünde pratik bir adımı işaret eder.

Atıf: Cui, J., Huang, Y. & Wang, L. Enhanced visual-inertial SLAM Using SuperPoint and semantic geometric dynamic feature detection. Sci Rep 16, 15538 (2026). https://doi.org/10.1038/s41598-026-46629-0

Anahtar kelimeler: görsel inertial SLAM, dinamik ortamlar, öznitelik çıkarımı, robot navigasyonu, bilgisayarla görme