Clear Sky Science · tr

Hâ’il bölgesinde iletişim erişilebilirliğini artırmak için sürekli işaret dili tanıma amacıyla çift akışlı derin öğrenme çerçevesi

2026-02-03 · Dizine geri dön

İletişim Uçurumunu Kapatmak

Birçok işitme engelli için işaret dili başlıca iletişim aracıdır; ancak çoğu bilgisayar, telefon ve kamu hizmeti bunu hâlâ anlayamıyor. Bu makale, videoda sürekli işaret yapımını izleyip bunu yazılı sözcüklere daha doğru dönüştürebilen yeni bir yapay zeka sistemi sunuyor. Sistemin amacı yalnızca el hareketlerine değil, aynı zamanda baş pozisyonu ve yüz ifadelerine de dikkat ederek teknoloji tabanlı iletişimi daha doğal ve erişilebilir kılmak—özellikle dijital desteğin hâlâ sınırlı olduğu Suudi Arabistan’ın Hâ’il bölgesindeki sağır topluluklar için.

Neden Yalnızca Eller Yeterli Değil

İşaret dilleri, tüm üst vücudu kullanan zengin ve karmaşık sistemlerdir. Anlam yalnızca ellerin nasıl hareket ettiğinden gelmez; yüz ifadeleri, işaretçinin nereye baktığı ve başın eğilmesi ya da sallanması da önem taşır. Bu el dışı işaretler soru işaretleri, olumsuzlama, vurgu veya duygu gibi bilgileri işaretleyebilir. İnsanlar bunu zahmetsizce okurken, işaret dili tanıma için geliştirilen çoğu bilgisayar sistemi neredeyse tamamen eller üzerinde yoğunlaşır. Bu kestirme yol eğitim sürecini basitleştirir ama işaretler izole sözcükler yerine hızlı, sürekli cümleler halinde aktığında önemli ipuçlarının kaybolmasına yol açar.

İki Akışlı Paralel Çalışma

Yazarlar, elleri ve başı ayrı işleyen, sonra bunları birleştiren TS-CNN adlı "çift akışlı" bir derin öğrenme çerçevesi tanıtıyor. Bir akış, işaretçinin ellerinin kırpılmış görüntülerine odaklanarak şekil, hareket ve konum örüntülerini öğreniyor. Diğer akış ise yüz ve başın kompakt bir haritasını alıyor; bu harita, nokta işaretleri (landmark) ve baş-pozu tahminlerinden türetiliyor. Her iki akış da her video karesini sayısal özelliklere dönüştürmek için standart bir görsel ağ türü kullanıyor. Sistem daha sonra bu özellikleri kare kare birleştiriyor ve el ile baş ipuçlarının gerçek işaret sırasında eşzamanlı olarak ortaya çıktığını dikkate alıyor. Daha sonraki bir zamansal modül birçok kareyi inceleyerek işaretlerin zaman içinde nasıl geliştiğini anlıyor ve yineleyen bir katman öngörülen işaret birimlerinden (gloss) oluşan bir dizi üretiyor.

Sistemin İşaret Hafızasını Keskinleştirmek

Sürekli işaret tanıma, eğitim verilerinin sınırlı olması ve işaretlerin net kare kare etiketler olmadan birbirine karışması nedeniyle zordur. Bunu çözmek için yazarlar, ağa eğitim sırasında ek rehberlik sağlayan Bir Özellik Güçlendirme Modülü ekliyor. Yaygın kullanılan bir teknik, öngörülen gloss dizisini video ile hizalayarak her gloss için olası zaman pozisyonları üretir. Yeni modül bu hizalama önerilerini alıp iç representation (temsil) olan gloss özelliklerini geliştirmek için doğrudan denetim olarak kullanıyor. Basitçe söylemek gerekirse sistem yalnızca doğru diziyi çıkarmayı öğrenmekle kalmıyor, aynı zamanda her işaretin farklı videolarda nasıl göründüğüne dair daha net ve tutarlı iç “hafızalar” oluşturmayı da öğreniyor.

Yöntemi Teste Sokmak

Ekip, TS-CNN’i iki iyi bilinen işaret dili veri kümesi üzerinde değerlendiriyor: Almanca İşaret Dili için RWTH-PHOENIX-Weather 2014 ve Çin İşaret Dili için CSL Split II. Performansı, konuşma tanımada kullanılan benzer bir standart metrik olan kelime hata oranı ile ölçüyorlar. Yalnızca el hareketlerine bakan bir temel modele kıyasla baş-pozu bilgisinin eklenmesi Almanca veride hataları yaklaşık 4 puan, Çin verisinde ise 3–4 puan düşürüyor. Özellik güçlendirme modülünün eklenmesi daha da büyük kazanımlar getiriyor ve her iki veri kümesinde de toplam hatayı yaklaşık %10–14 oranında azaltıyor. Sistem ayrıca modern bir grafik işlemcisinde gerçek zamanlı hızlara ulaşacak şekilde verimli çalışıyor; bu, canlı çeviri veya mobil araçlarda kullanılacaksa çok önemli.

Günlük Hayat İçin Anlamı

Günlük ifadeyle bu araştırma, bilgisayarların yalnızca elleri değil tüm işaretçiyi izlediklerinde işaret dilini daha güvenilir biçimde anlayabileceğini gösteriyor. Baş hareketleri ve yüz ipuçlarını el hareketleriyle birlikte modelleyerek ve sınırlı eğitim verilerinden öğrenme sürecini dikkatle iyileştirerek TS-CNN çerçevesi, sınıflarda, hastanelerde ve kamu dairelerinde sağır insanlara yardımcı olabilecek pratik sistemlere daha da yaklaşmış oluyor. İnsan çevirmenlerin nadir olduğu ve teknoloji projelerinin henüz gelişmekte olduğu Hâ’il gibi bölgeler için böyle bir sistem sonunda daha kapsayıcı iletişimi destekleyebilir—hem işaretleyenlerle işiten dünya arasındaki uçurumu azaltmaya yardımcı olur hem de işaretlemenin zengin, insan deneyiminin yerini almaz.

Atıf: Harrouch, H., Guesmi, H., Alalfy, H. et al. A dual-stream deep learning framework for continuous sign language recognition to enhance communication accessibility in the Ha’il region. Sci Rep 16, 7070 (2026). https://doi.org/10.1038/s41598-026-38912-x

Anahtar kelimeler: işaret dili tanıma, derin öğrenme, erişilebilirlik, bilgisayarlı görme, insan–bilgisayar etkileşimi