Clear Sky Science · tr
Sıfır atışlı İngilizce–Assamça sinirsel makine çevirisi: dönemeç tabanlı çapraz-dil gömme hizalaması ve transfer öğrenme
Günlük konuşmalar için neden önemli
Milyarlarca insan büyük teknoloji şirketlerinin neredeyse desteklemediği dilleri konuşuyor. Kuzeydoğu Hindistan'da milyonlarca kişi tarafından konuşulan Assamca da bunlardan biri. Çevrimiçinde, bu durum haberlerin, sağlık tavsiyelerinin ve resmi bilgilerin sıklıkla İngilizce olarak kalıp erişilemez olmasına yol açıyor. Bu makale, neredeyse hiç doğrudan eğitim verisi olmasa bile, yakından ilişkili ve daha iyi kaynaklı bir dil olan Bengalce'yi köprü olarak akıllıca kullanarak güçlü bir İngilizce–Assamca çeviri sistemi nasıl kurulacağını gösteriyor.
Veri dağı yerine dil köprüsü
Modern çeviri sistemleri genellikle milyonlarca eşleştirilmiş cümleyi görerek öğrenir: aynı satırın örneğin İngilizce ve Fransızca versiyonları gibi. Assamca için böyle paralel veriler nadirdir. Yazarlar bu darboğazı, verilerin daha bol olduğu İngilizce–Bengalce çiftleri üzerinde eğitim yaparak ve ardından bu bilgiyi Assamca'ya aktararak aşıyor. Bengalce ile Assamca benzer dilbilgisi, kelime haznesi ve yazı sistemini paylaştığından, sistem Bengalce'yi bir basamak taşı gibi kullanıp İngilizce–Assamca cümle çiftlerini hiç görmeden Assamca için de geçerli olan kalıpları öğrenebiliyor.
Üç dili tek bir paylaşılan alana getirerek
Yaklaşımın merkezinde, zaten birçok dil hakkında bir miktar bilgiye sahip olan mBART adında çokdilli bir model var. Araştırmacılar bu modeli İngilizce–Bengalce çevirileri üzerinde rafine ediyor ve sonra İngilizce, Bengalce ve Assamca kelimeleri ortak bir “anlam haritası”na itiyorlar. Bunu, Prokrustes hizalaması adı verilen matematiksel bir yöntemle yapıyorlar; bu yöntem kelime haritalarını döndürüp gererek, üç dilde benzer anlam taşıyan kelimelerin birbirine yakınlaşmasını sağlıyor. Bu paylaşılan alan, sistem bir İngilizce kelimeyi Bengalce'ye nasıl çevireceğini öğrendiyse, aynı mahallede yer alan yakından ilişkili bir Assamca kelimeyi nasıl ifade edeceğini çıkarım yaparak bulabileceği anlamına geliyor. 
Nadir kelimelerle başa çıkmak ve doğru dili korumak
Düşük-kaynak diller yalnızca eksik cümle çiftlerinden değil, aynı zamanda isimler, teknik terimler ve gayriresmi argo gibi nadir kelimelerin yokluğundan da zarar görüyor. Buna karşı koymak için sistem kelimeleri daha küçük parçalarına (altkelimelere) ayırıyor; böylece görülmemiş terimler bile tanıdık yapı taşlarından oluşturulabiliyor. Hâlâ sözlüğün dışında kalan nadir durumlar için, paylaşılan anlam alanında en yakın bilinen komşuyu bularak o temsilciliği ödünç alıyor. Aynı zamanda modele hangi dili üretmesi gerektiği girişteki özel dil etiketleriyle açıkça söyleniyor. Bu etiketler, hizalanmış kelime alanlarıyla birlikte, çokdilli sistemlerde sık görülen bir hatayı—ilişkili ama yanlış bir dilde, örneğin Assamca yerine Bengalce cevap verme hatasını—keskin biçimde azaltıyor.
Çerçeveyi teste sokmak
Tüm bu hilelerin işe yarayıp yaramadığını değerlendirmek için yazarlar haber, Vikipedi, konuşma ve teknik yazılardan derlenmiş, dikkatle kontrol edilmiş iki binden fazla İngilizce–Assamca cümle çiftinden oluşan bir test seti oluşturdular. Sistemlerini birkaç alternatifle karşılaştırdılar: doğrudan İngilizce–Assamca verilerle eğitilmiş küçük ve büyük modeller, dil etiketleri olmayan çokdilli bir model ve önce İngilizceyi Bengalceye sonra Bengalceyi Assamcaya çeviren geleneksel iki adımlı bir boru hattı. Bir dizi standart otomatik ölçütte, doğrudan İngilizce–Assamca çiftleriyle hiç eğitilmeyen bu sıfır atışlı sistem hepsini yendi; hatta 50.000 gerçek İngilizce–Assamca cümleyle eğitilmiş çok daha büyük bir modeli bile geride bıraktı. Ana dili Assamca olan insan değerlendirenler yeni sistemin çevirilerini hem anlam doğruluğu hem de akıcılık açısından daha iyi buldu; hata oranları yaklaşık üçte bir azaldı. 
Küçük dil konuşurları için bunun anlamı
Basitçe söylemek gerekirse çalışma, az temsil edilen dillerin konuşurlarına hizmet etmek için her zaman dağlarca doğrudan çeviri verisine ihtiyaç olmadığını gösteriyor. Bengalce gibi dilbilimsel olarak yakın bir “yardımcı” dil seçip, farklı dillerin kelimelerinin nasıl temsil edildiğini dikkatle hizalayarak ve istenen çıktı dilini açıkça işaretleyerek yazarlar pratik kullanım için yeterince hızlı güçlü bir İngilizce–Assamca çevirisi başardılar. Çerçeveleri, ideal tam denetimli bir sistemin kalitesinin yüzde doksanından fazlasına ulaşıyor ve çıkarımda yaklaşık üçte bir daha hızlı çalışıyor. Bu, daha iyi çalışılmış akraba dillere sahip ama kendi veri miktarı çok az olan dünyadaki birçok başka düşük-kaynak dile yüksek kaliteli makine çevirisi getirmek için umut verici bir reçete sunuyor.
Atıf: Nath, B., Gulzar, Y. Zero-shot English–Assamese neural machine translation via pivot-based cross-lingual embedding alignment and transfer learning. Sci Rep 16, 13732 (2026). https://doi.org/10.1038/s41598-026-44209-w
Anahtar kelimeler: makine çevirisi, Assamca dili, düşük-kaynak NLP, çapraz-dil gömmeleri, dönemeç dili