Clear Sky Science · tr
Swin Transformer ve CNN'e Dayalı El Jestleri 3B Poz Tahmin Yöntemi
Makinelerle Konuşan Eller
Bir bilgisayarı, bir otomobil gösterge panelini veya sanal gerçeklik dünyasını sadece ellerinizi havada hareket ettirerek kontrol ettiğinizi hayal edin. Bunun doğal hissettirmesi için makinelerin her parmak ekleminin üç boyutlu uzaydaki konumunu tam olarak bilmesi gerekir; üstelik elin bazı kısımları gizlendiğinde veya yetersiz aydınlatıldığında bile. Bu makale, derinlik kameralarından el pozlarını daha doğru okumak için yeni bir yol sunuyor ve dokunmasız, akıcı etkileşimi günlük hayata bir adım daha yaklaştırıyor.

Elleri Okumanın Zorluğu
El poz tahmini, kamera verilerinden eldeki ana eklemlerin 3B konumlarını bulmak demektir. Bu, göründüğü kadar basit değildir. Parmaklar bükülür, döner ve üst üste gelebilir; ayrıca farklı insanların el şekil ve boyutları değişir. Mevcut pek çok yöntem sınırlı görsel ipuçlarına bakar veya küçük bölgelere odaklanır, dolayısıyla tüm elin birlikte nasıl hareket ettiğini kaçırır. Başparmak ile işaret parmağının bir nesneyi kavrarken nasıl işbirliği yaptığı gibi uzak eklemler arasındaki ilişkileri yakalamakta da zorlanırlar. Bu anlayış eksiklikleri, sanal gerçeklik veya işaret dili tanıma gibi gerçek dünya uygulamalarında daha büyük hatalara ve güvensiz performansa yol açar.
El İçin Yeni İki-Yollu Bir Bakış
Yazarlar, derinlik görüntülerini—her pikselin kameradan uzaklığı kodladığı görüntüleri—alıp bunları hassas 3B el iskeletlerine dönüştüren bir sistem öneriyor. İlk olarak, gelen derinlik görüntüsünden kaba görsel özellikleri çıkarmak için geleneksel bir konvolüsyonel sinir ağı (CNN) kullanılıyor. Ardından bilgi iki paralel dala akıyor. Bir dal, birden fazla görüntü ölçeğinde ince detayları takip etmek için U biçimli bir ağ (U-Net) kullanıyor; bu, bireysel parmak eklemleri gibi küçük yapıları koruyor. Diğer dal ise, görüntedeki uzak bölgeler arasındaki ilişkileri yakalamada üstün olan yeni bir mimari olan Swin Transformer’ı kullanıyor. Her iki dal birlikte çalıştırılıp çıktıları birleştirildiğinde, model hem her bir eklemin yerel detaylarını hem de elin genel düzenini öğreniyor.

Parmak Eklemlerini Vurgulayan Isı Haritaları
Ağın eklemlerin nerede olma olasılığını öğrenmesine yardımcı olmak için araştırmacılar bir ara gösterim olarak ısı haritası (heatmap) ekliyor. Her eklem için, o eklemin en muhtemel konumunun tepe noktasını işaretleyen, yakın piksellerin kademeli olarak solduğu yumuşak, parlayan bir nokta üretiliyor. Eğitme sırasında modelden yalnızca her eklemin nihai 3B koordinatlarını tahmin etmesi değil, aynı zamanda bu ısı haritalarıyla da eşleşmesi isteniyor. Bu çift denetim, ağın görüntüdeki mekânsal yapıya ve bitişik eklemler arasındaki doğal bağlantılara dikkat etmesini sağlıyor. Ayrıca sistemin farklı insanlar ve el pozları arasında genelleme yeteneğini artırıyor.
Yeni Veriler ve Daha İyi Doğruluk
Yaklaşımlarını test etmek için yazarlar Microsoft Research Asia’dan bilinen bir kıyaslama veri setini, LiDAR cihazı kullanarak yakaladıkları yeni bir derinlik görüntüleri setiyle birleştiriyor. Kendi veri setleri, küçük ve uzaktaki eller ile çeşitli jestler gibi zorlu örnekler ekleyerek gerçek kullanım senaryolarını daha iyi yansıtıyor. Yöntem birkaç yaygın kullanılan el poz tahmin sistemiyle karşılaştırılıyor. Ortalama olarak yeni model, bu rakiplere kıyasla eklem pozisyonu hatasını birkaç milimetreye varan oranlarda azaltıyor ve yine de gerçek zamanlı veya yakın gerçek zamanlı uygulamalar için uygun hızlarda çalışıyor. Ayrıntılı deneyler, her ana bileşenin—Swin Transformer ile küresel modelleme, U şeklindeki ağdan yerel çok ölçekli özellikler ve ısı haritası denetimi—nihai doğruluğa ölçülebilir katkı sağladığını gösteriyor.
Günlük Etkileşim İçin Anlamı
Basitçe söylemek gerekirse, çalışma bir algoritmanın elin “büyük resmini” ve her parmağın küçük ayrıntılarını aynı anda görmesine izin vermenin ve olası eklem konumlarını vurgulayan ısı haritalarıyla eğitmenin, 3B el hareketlerinin daha güvenilir izlenmesine yol açtığını gösteriyor. Bu gelişmiş hassasiyet ve sağlamlık, sanal gerçeklik, akıllı otomobil panelleri veya uzak iş birliği araçları için kullanıcılar, aydınlatma koşulları ve karmaşık pozlar arasında çalışabilecek jest kontrollü sistemler oluşturmayı kolaylaştırıyor. Yöntemin hâlâ ellerin nesnelerle yakın etkileşimde olduğu daha karmaşık durumlara genişletilmesi gerekiyor, ancak bu, bilgisayarların el hareketlerimizi kullandığımız kadar akıcı şekilde okuyabilmesi yönünde sağlam bir adımı işaret ediyor.
Atıf: Dang, R., Feng, G. Hand gesture 3D pose estimation method based on swin transformer and CNN. Sci Rep 16, 11551 (2026). https://doi.org/10.1038/s41598-026-41974-6
Anahtar kelimeler: el poz tahmini, jest tanıma, derinlik görüntüleme, transformer ağları, insan–bilgisayar etkileşimi