Clear Sky Science · tr
İşaret dili çevirisi için zaman serisini gözeten yeni uyarlanabilir ADAT dönüştürücü mimarisi
İletişim uçurumunu kapatmak
Milyonlarca Sağır ve işitme güçlüğü çeken insan için doktora gitmek veya hava raporu izlemek gibi günlük işler, yetkin işaret dili çevirmenlerinin azlığı yüzünden olması gerekenden daha zor olabiliyor. Bu makale, işaret dili videolarını yazılı cümlelere mevcut sistemlere kıyasla daha doğru ve daha verimli biçimde çeviren ADAT adlı yeni bir yapay zeka sistemini tanıtıyor; bu, telefonlarda, tabletlerde ve hastane bilgisayarlarında gerçek zamanlı ve yaygın işaret dili çevirisine daha yakın olmamızı sağlıyor.
Neden işaret dili bilgisayarlar için zor
İşaret dilleri kendi dilbilgilerine sahip, zengin ve karmaşık dillerdir ve sadece el hareketlerinden çok daha fazlasına dayanır. Yüz ifadeleri, beden duruşu ve ince zamanlama işaretli bir cümlenin anlamını değiştirebilir. Modern çeviri sistemleri genellikle uzun konuşma veya yazılı cümleleri anlamada çok iyi olan dönüştürücü (transformer) adlı güçlü bir yapıyı kullanır. Ancak 30–60 kare/saniye hızındaki yüksek hızlı videolarda bu sistemler yavaşlayabilir ve bir işareti diğerinden ayıran hızlı, ince hareketleri fark etmekte zorlanabilir. Ayrıca çok fazla hesaplama gücü ve eğitim süresi gerektirirler; bu da işaret dilleri geliştikçe sistemleri güncel tutmayı zorlaştırır.

İşareti daha akıllıca okumanın yolu
ADAT mimarisi, işaret dili videolarını zaman serisi olarak ele alacak şekilde özel olarak tasarlanmıştır: zamana yayılmış hızlı bir görsel olay akışı. Üç fikri birleştirir. Birincisi, el şekilleri ve yüz ipuçları gibi yerel desenlere odaklanmak için denenmiş bir görüntü tekniği olan konvolüsyonel sinir ağlarını (CNN) kullanır. İkincisi, her kareyi diğer tüm karelerle karşılaştırmak yerine videodaki kilit anlara seçici şekilde bakan daha verimli bir dikkat (attention) biçimi uygular. Üçüncüsü, ayrıntılı kısa dönem bilgileri daha geniş uzun dönem bağlamla harmanlamayı öğrenen uyarlanabilir bir “kapı” (gate) vardır; bu kapı her cümlenin bölümünde hangi bilginin daha önemli olduğuna anında karar verir. Bu bileşenler birlikte, ADAT’ın bir parmağın hızlı kıvılcımını ve bir konuşmanın genel yapısını hesaplamayı israf etmeden yakalamasına olanak tanır.
İşaretten kelimeye iki yol
İşaret dili çevirisi iki ana adımda düzenlenebilir: önce işaretlerin temel birimleri olan gloss’ları tanımak, sonra bu gloss’ları konuşma veya yazılı metne dönüştürmek — buna sign-to-gloss-to-text denir. Alternatif olarak, bir sistem videodan doğrudan metne tek adımda geçmeye çalışabilir; buna sign-to-text denir. Yazarlar ADAT’ı her iki yaklaşımda da test eder. Büyük bir Almanca hava tahmini korpusu, bir Hint İşaret Dili koleksiyonu ve yazarların gerçekçi doktor–hasta konuşmalarını yansıtmak için oluşturduğu yeni Amerikan İşaret Dili tıbbi veri seti dahil olmak üzere üç veri kümesinde iyi bilinen transformer tabanlı güçlü taban modellerle, örneğin SLTUNET gibi, karşılaştırırlar.
Daha hızlı eğitim ve daha net çeviriler
Bu testlerin tümünde ADAT, standart BLEU skorlarıyla ölçülen çeviri kalitesinde ya en iyi rakip modellerle eşleşir ya da onları geride bırakır ve aynı zamanda eğitimde belirgin şekilde daha hızlıdır. İki aşamalı sign-to-gloss-to-text düzeninde, klasik bir transformer ile benzer veya hafif daha iyi puanlar verirken ortalama olarak eğitim süresini yaklaşık beşte bir kadar azaltır. Daha zorlu doğrudan sign-to-text düzeninde ise ADAT, yalnızca enkoderli, yalnızca dekoderli ve birleşik transformer tabanlı modelleri açıkça geride bırakır; genellikle doğrulukta yaklaşık bir yüzde puanı veya daha fazla iyileşme sağlar ve eğitimde yine yaklaşık %20 daha hızlıdır. Altındaki matematiğin detaylı analizi, ADAT’ın daha seçici dikkat ve çift yollu tasarımının, özellikle uzun veya yüksek kare hızlı videolarla uğraşırken gereken işlem sayısını önemli ölçüde azalttığını gösterir.

Hayati konuşmalar için yeni veri
Bu yöntemlerin laboratuvar dışına da taşınabilir olmasını sağlamak için yazarlar, tıbbi iletişime odaklanan ilk Amerikan İşaret Dili veri seti MedASL’ı tanıtır. Bu veri kümesi, hasta ile sağlık çalışanı arasındaki gerçek etkileşimleri simüle eden, özenle tasarlanmış 500 benzersiz cümleden oluşur ve hem gloss hem de metin anotasyonları içerir. Bu tıbbi odak önemlidir çünkü bir hastane veya klinikteki yanlış anlamalar ciddi sonuçlar doğurabilir ve mevcut veri kümeleri nadiren bu alanı kapsar. ADAT, MedASL üzerinde güçlü bir performans sergiler, ancak sonuçlar herhangi bir sistemin yeni, gerçek dünya cümlelerine kusursuz genelleme yapmasının ne kadar zorlu olduğunu da ortaya koyar.
Günlük yaşam için ne anlama geliyor
Basitçe söylemek gerekirse, çalışma hem daha akıllı hem de daha yalın işaret dili çeviri sistemleri inşa edebileceğimizi gösteriyor: eğitim için daha az zaman ve hesaplama gücü gerektirirken işaretlemenin inceliklerini daha iyi yakalıyorlar. ADAT henüz her işaret dilinde ve her durumda kullanılabilecek tak–çalıştır bir çevirmen değil ve hâlâ çok büyük önceden eğitilmiş modellere dayanan sistemlerin gerisinde kalıyor. Ancak zamana duyarlı video desenleri ve verimliliğe odaklanarak, bir gün sıradan cihazlarda çalışabilecek, birden çok işaret dilini destekleyebilecek ve Sağır kullanıcıların sağlık, acil müdahale ve kamu hizmetleri gibi kritik ortamlarda daha kolay iletişim kurmasına yardımcı olabilecek pratik araçlara doğru bir yol gösteriyor.
Atıf: Shahin, N., Ismail, L. ADAT novel time-series-aware adaptive transformer architecture for sign language translation. Sci Rep 16, 6551 (2026). https://doi.org/10.1038/s41598-026-36293-9
Anahtar kelimeler: işaret dili çevirisi, uyarlanabilir dönüştürücü, zaman serisi dikkat mekanizması, tıbbi ASL, erişilebilir yapay zeka