Clear Sky Science · tr

Sign4all: İspanyol İşaret Dili veri kümesi

· Dizine geri dön

Makinelerle konuşan eller

Dünyada milyonlarca insan iletişim için işaret dillerine dayanıyor, ancak bugünün uygulamaları ve cihazlarının çoğu hâlâ yalnızca konuşulan kelimeleri “dinliyor”. Bu boşluğu kapatmak için bilgisayarların öğrenebileceği, büyük ve titizlikle tasarlanmış işaret dili video koleksiyonlarına ihtiyacı var. Bu makale, günlük işaretleri daha adil ve doğru biçimde anlamaya yardımcı olmak amacıyla oluşturulmuş yeni bir İspanyol İşaret Dili veri kümesi olan Sign4all’i tanıtıyor; gelecekteki telefonlar, dizüstü bilgisayarlar ve kamu cihazları için tasarlandı.

Figure 1
Figure 1.

İşaret dili için neden yeni verilere ihtiyaç var

Sesli asistanlar, büyük ses veri koleksiyonları üzerinde eğitildikleri için hızla gelişti. İşaret dilleri aynı ilerlemeyi yaşamadı. Mevcut işaret veri kümeleri genellikle binlerce farklı kelimeyi kapsama eğiliminde ama her birini yalnızca birkaç kez gösteriyor. Bu durum, aynı işaretin kişiler, kıyafet, hız veya kamera açısına göre nasıl hafifçe değişebileceğini bilgisayarın öğrenmesini zorlaştırıyor. Birçok koleksiyon ayrıca yalnızca sağ elli işaretçileri kaydediyor; oysa nüfusun kayda değer bir kısmı sol eliyle işaret yapıyor ya da her iki eli kullanıyor. Sonuç olarak, bu verilerle eğitilmiş sistemler sol elli işaretçilerle veya hareketin ince farklılıklarıyla karşılaştıklarında başarısız olabiliyor.

Günlük yaşamdan odaklanmış bir sözcük dağarcığı

Sign4all, nicelikten çok niteliğe odaklanan “küçük ama derin” bir yaklaşımı benimsiyor. Yazarlar, dışarıda yemek ve günlük öğünlerle ilgili 24 yaygın İspanyol İşaret Dili işaretini kaydetti: “ben” ve “sen” gibi zamirler, et, balık ve çorba gibi yiyecekler, kaşık ve çatal gibi gereçler ve “ne”, “nerede” ve “ne zaman” gibi soru sözcükleri. Her işaret için ortalama 300’den fazla yüksek çözünürlüklü video klip bulunuyor; bu da öğrenme algoritmalarına her jestin nasıl çeşitlenebileceğine dair çok sayıda örnek sağlıyor. Sözcük dağarcığı ayrıca işaretlerin kısa cümlelerde birleştirilebilmesini hedefleyecek şekilde seçildi; örneğin “Eti sevmiyorum” veya “Kahvaltıda et ve yumurta yiyorum” gibi basit cümle tanıma çalışmalarına olanak verecek biçimde.

Sol ve sağ arasında denge kurmak

Temel tasarım tercihlerinden biri, sol elli ve sağ elli işaretlemeyi eşit derecede önemli kabul etmekti. Sekiz gönüllü (dört kadın ve dört erkek) laboratuvarda yüksek kaliteli bir kamera ile kaydedildi. Her biri, tek el kullanılan veya asimetrik iki el kullanılan her işareti hem baskın hem de baskın olmayan eliyle gerçekleştirdi. Simetrik iki elli işaretler ise her sınıfın yaklaşık olarak aynı sayıda klibe sahip olması için ekstra tekrarlarla kaydedildi. Titiz manuel kesme işlemlerinin ardından nihai koleksiyon 7.756 video içeriyor ve sol elli ile sağ elli performanslar neredeyse eşit olarak bölünmüş durumda. Bu denge, gelecekteki tanıma sistemlerinin hangi elin hareketi başlattığını göz ardı etmeyi ve bunun yerine desenin kendisine odaklanmayı öğrenmesine olanak tanıyor.

Figure 2
Figure 2.

Zengin videoları temiz hareket verisine dönüştürmek

Kayıtlar, makine öğrenimi için olabildiğince kullanışlı olacak şekilde işlendi. Her video, pozisyona girme veya pozisyondan çıkma hareketleri değil, yalnızca gerçek işareti içerecek şekilde kırpıldı. Tüm klipler tipik bir jesti yakalamaya yetecek uzunlukta olmak üzere 48 kareye standartlaştırıldı; böylece modeller yalnızca klip uzunluğunu kullanarak kelimeyi tahmin edemiyor. Görüntüler, tavan ve zemini kaldırmak amacıyla işaretçiye göre kırpıldı; doğal vücut formu korunarak, ham dikdörtgen görüntünün rastgele yeniden boyutlanmasıyla oluşacak bozulmalar önlendi. Renk vidyoların yanı sıra ekip, üst vücut ve parmaklardaki ana eklemlerin konumlarını çıkarmak için bir poz takibi aracı kullandı ve kare kare kompakt bir “çöp adam” açıklaması oluşturdu. Bu iskelet verileri, modern derin öğrenme yazılımlarına doğrudan takılabilecek yaygın bilimsel formatlarda saklandı.

Bilgisayarlara mükemmellik değil, çeşitlilik öğretmek

Gerçek dünya ortamları dağınıktır: insanlar farklı kıyafetler giyer, gün boyunca ışık değişir ve kameralar hafifçe titrer. Sistemlerin bu tür çeşitlilikle başa çıkmasına yardımcı olmak için yazarlar veri kümesinin ek olarak önceden işlenmiş versiyonlarını oluşturdu. Bazı klipler zıt eli simüle etmek amacıyla sağdan sola çevrildi; diğerleri ise parlaklık, renk, bulanıklık veya dönme gibi küçük değişikliklerle değiştirildi—işaretin anlamını bozmadan. Bu adım, örnek sayısını 60.000’in üzerine çıkardı. Video tabanlı bir Transformer modeli—modern bir sinir ağı türü—ile yapılan testler, bu zenginleştirilmiş verilerle eğitmenin tanıma performansını keskin şekilde iyileştirdiğini gösterdi. Yalnızca iskelet hareket verisi ile eğitilmiş daha basit bir model de yüksek doğruluğa ulaştı; bu da veri kümesinin benzer işaretleri ayırt etmek için gerekli temel bilgiyi yakaladığını kanıtladı.

Kapsayıcı teknoloji için anlamı

Sign4all’ın mesajı sıradan bir kişi için açıktır: makinelerimize ne kadar iyi ve adil çalışma materyali verirsek, işaret yapan insanları o kadar iyi anlayacaklar. Günlük İspanyol işaretlerinden binlerce yüksek kaliteli, dengeli örnek—hazır hareket tanımları ve standart eğitim bölünmeleri ile birlikte—sunarak bu veri kümesi daha güvenilir işaret dili tanıma sistemleri için temel atıyor. Zamanla bu tür araçlar gerçek zamanlı altyazı, daha erişilebilir kamu hizmetleri ve sağır ve işiten topluluklar arasında daha akıcı iletişim gibi uygulamalara destek vererek dijital teknolojinin seslerin yanı sıra elleri de dinlemesini sağlamaya yardımcı olabilir.

Atıf: Morillas-Espejo, F., Martinez-Martin, E. Sign4all: a Spanish Sign Language dataset. Sci Data 13, 502 (2026). https://doi.org/10.1038/s41597-026-06872-6

Anahtar kelimeler: işaret dili tanıma, İspanyol İşaret Dili, jest veri kümeleri, yardımcı teknoloji, makine öğrenimi