Clear Sky Science · tr

Fonolojik karmaşıklık, konuşma stili ve bireysel farklılıklar Tarifit için ASR performansını etkiliyor

· Dizine geri dön

Günlük konuşma teknolojisi için neden önemli

Sesli asistanlar ve otomatik altyazılar günlük yaşamın bir parçası haline geliyor, ancak bazı dillerde ve aksanlarda diğerlerine göre çok daha iyi çalışıyorlar. Bu makale, iyi kaynaklı bir dil olan Arapça üzerinde eğitilmiş bir konuşma tanıma sisteminin Kuzey Fas’ta konuşulan bir Amazigh dili olan Tarifit üzerinde ne yaptığına bakıyor. Sistem hangi Tarifit sözcüklerini iyi işliyor—ve nerede başarısız oluyor—bunu yakından inceleyerek mevcut teknolojideki gizli önyargılara ve bir dilin ses yapılarının makinelerin (dolayısıyla dinleyicilerin) neleri kolayca anlayabildiğini nasıl şekillendirdiğine ışık tutuyor.

Bugünün konuşma teknolojisinin sınırındaki bir dil

Tarifit, ses örüntüleri birçok baskın teknoloji dilinden oldukça farklı olduğu için çarpıcı bir sınama olgusu sunuyor. Pek çok dil “CV” (bir ünsüzü bir ünlü izleyen) gibi basit heceleri tercih ederken, Tarifit daha karmaşık başlangıçları rahatlıkla kullanır: ardışık iki ünsüz, “sonorite”de (kabaca bir sesin ne kadar yüksek ve rezonant olduğu) yükselen, düz kalan veya düşen biçimler alabilir. Ayrıca sözcüklerin uzun çiftlenmiş bir ünsüz (geminate) ile başlamasına izin verir. Bu örüntüler dünya dillerinde nadirdir ve Arapçada büyük ölçüde yoktur; oysa iki dil birçok bireysel sese ortaklık gösterir. Bu durum, yaygın bir dil üzerinde eğitilmiş bir sistemin daha az tanıdık ses yapılarıyla nasıl başa çıktığını—ve bunun konuşma teknolojisinde adalet ve kapsama dair ne anlattığını—test etmek için Tarifit’i ideal kılar.

Figure 1
Figure 1.

Açık ve gündelik konuşmayı çalışma nasıl test etti

Araştırmacılar Nador kentinden 37 yerli Tarifit konuşmacısını kaydetti. Her katılımcı, basit bir taşıyıcı cümle içinde gömülü 80 hedef sözcüğü iki kez okudu: biri işitme güçlüğü çeken birine konuşurmuş gibi dikkatli, “açık” bir üslupta; diğeri ise yakın bir arkadaşla sohbet eder gibi daha hızlı, gündelik bir üslupta. Kelime listesi sistemi zorlamak üzere tasarlanmıştı: bazı öğeler yükselen, plateau (düzleşen) veya düşen iki-ünsüz kümeleri ile başlarken, diğerleri tek ile uzun (geminate) başlangıç ünsüzlerini karşılaştırıyordu. Tüm kayıtlar ticari bir Arapça konuşma tanıyıcıdan geçirildi ve ekip, makinenin çıktılarını doğru formlarla karşılaştırdı; hem sıkı bir doğruluk skoru (doğru ya da yanlış) hem de hatayı düzeltmek için kaç karakter değişikliğinin gerektiğini sayan bir “mesafe” ölçüsü kullandılar.

Makinenin doğru yaptığı ve tökezlediği yerler

Genel olarak, Tarifit Arapça sisteme zor geldi, ancak konuşma stili ve ses yapısı belirgin bir fark yarattı. Konuşmacılar açık konuştuğunda tanıyıcı belirgin şekilde daha iyi performans gösterdi: daha fazla tam eşleşme ve daha az tamamen “yanlış kelime” tahmini üretti; hatta hataları da genellikle tam bir başarısızlıktan ziyade küçük düzeltmeler oluyordu. Yükselen kümelerle başlayan sözcükler—seslerin daha azdan daha fazlaya doğru hareket ettiği durumlar—daha doğru ve daha az düzenleme ile tanındı; düz veya düşen örüntülerle başlayanlara göre daha başarılıydı. Buna karşılık, düşen kümelerle başlayan ve uzun çiftlenmiş ünsüzle başlayan sözcükler, dikkatli konuşulsa bile tutarlı şekilde daha çok hata üretti. Bu sonuçlar, daha tipik hece örüntüleri üzerinde eğitilmiş bir sistem için bazı nadir ses şekillerinin başından itibaren daha zorlu olduğunu gösteriyor.

Figure 2
Figure 2.

Sosyal önyargı olmaksızın konuşmacılar arasındaki farklılıklar

Diğer önemli soru, sistemin bazı konuşmacılara diğerlerinden daha “adil” davranıp davranmadığıydı. Çalışma bireysel konuşmacılar arasında büyük farklar buldu: bazı kişilerin sözcükleri diğerlerine göre çok daha doğru tanındı. Ancak bu farklılıklar yaş veya cinsiyetle açıklanmadı. Genç ve yaşlı konuşmacılar, erkekler ve kadınlar, sözcüklerin ses yapısı ve konuşma stili hesaba katıldığında genel olarak benzer modeller gösterdi. Bunun yerine performansın en önemli belirleyicileri küme türleri, geminatelerin varlığı ve konuşmanın açık mı gündelik mi olduğuydu. Bu, bu bağlamda sorunun kim konuştuğundan ziyade dilin ses örüntülerinin sistemin beklediği düzenle ne kadar örtüştüğü veya çatıştığı olduğunu öne sürüyor.

Daha adil ve akıllı ses araçları için bunun anlamı

Genel okuyucu için çıkarım iki yönlü. Birincisi, açık konuşmak makinelerin anlamasına gerçekten yardımcı oluyor; özellikle teknoloji tarafından büyük ölçüde göz ardı edilmiş diller için açık konuşmayı teşvik etmek, ses sistemleriyle günlük etkileşimleri iyileştirmenin düşük maliyetli bir yolu olabilir. İkincisi, tüm sesler aynı derecede sorun yaratmıyor: düşen kümeler ve başlangıçtaki çiftlenmiş ünsüzler gibi nadir örüntüler, yavaş ve dikkatli telaffuz edilseler bile mevcut sistemler için hâlâ zor olmaya devam ediyor. Bu, büyük, iyi çalışılmış diller için geliştirilen modelleri doğrudan yeniden kullanmanın eşit erişim için yeterli olmayacağı anlamına geliyor. Gelecekteki sistemlerin daha geniş bir ses yapısı yelpazesi hakkında bilgi inşa etmesi ve gerçek konuşmacıların onları nasıl ürettiğine uyum sağlaması gerekecek. Bunu yaparken, az temsil edilen dillerin konuşmacılarına daha adil davranabilir ve insan işitmesinin konuşmadaki karmaşık örüntülerle nasıl başa çıktığına dair yeni içgörüler sunabilirler.

Atıf: Afkir, M., Zellou, G. Phonological complexity, speech style, and individual differences influence ASR performance for Tarifit. Sci Rep 16, 13879 (2026). https://doi.org/10.1038/s41598-026-43245-w

Anahtar kelimeler: otomatik konuşma tanıma, Tarifit dili, açık konuşma, fonolojik karmaşıklık, az kaynaklı diller