Clear Sky Science · tr
Büyük dil modellerince edebi çevirinin değerlendirilmesi: Shen Congwen’in Sınır Kasabası eserinin çok boyutlu kalite değerlendirmesi
Bu çalışma neden okurlar ve yazarlar için önemli
ChatGPT ve benzeri büyük dil modelleri günlük yaşamın bir parçası haline geldikçe insanlar basit bir soruyu sormaya başladı: Bu sistemler gerçekten insan çevirmenlerin yerini alabilir mi, özellikle sevilen romanlar söz konusu olduğunda? Bu çalışma, bu soruyu yakından inceliyor: önde gelen birkaç yapay zeka modelinin klasik bir Çin kitabı olan Shen Congwen’in Sınır Kasabasını İngilizceye nasıl çevirdiğini ve bunları saygın bir insan çevirisiyle karşılaştırıyor.
Köy hikâyesi yapay zekayla buluşuyor
Sınır Kasabası, güneybatı Çin kırsal yaşamının nazik tasviri, şiirsel dili ve yerel gelenekler ile inançların yoğun dokusuyla ünlüdür. Bu özellikler onu ideal bir test vakası yapar: herhangi bir çevirmenin yalnızca kim ne yaptı sorusunu değil, nehir tekneleri üzerindeki sisi, halk şarkılarının ritmini ve geleneksel değerlerin ağırlığını da yakalaması gerekir. Yazarlar romanın ilk iki bölümünü seçti ve beş İngilizce versiyon topladı: dörtü büyük dil modelleri tarafından üretilmiş (GPT-4, GPT-4o, Gemini ve Çin sistemi WXYY 4.0 Turbo) ve biri insan akademisyen–çevirmen Jeffrey Kinkley’e ait; Kinkley’nin 2009 tarihli çevirisi üslup ve kültüre duyarlılığı nedeniyle geniş övgü aldı.

Çeviriler nasıl değerlendirildi
“Doğru geliyor mu”ya dair sezgilerin ötesine geçebilmek için araştırmacılar Çok Boyutlu Kalite Ölçütleri adında ayrıntılı bir çerçeve kullandı. Yalnızca sözcüklerin orijinalle örtüşüp örtüşmediğini kontrol etmek yerine, bu yaklaşım hataları sınıflara ayırıyor ve ne kadar ciddi olduklarını puanlıyor. Ekip üç büyük soruya odaklandı: Anlam doğru mu? Versiyon yazarın tonu ve anlatı stiline sadık mı kalıyor? Kültürel ayrıntıları okurlar için anlamlı kılarken özgün tadı siliniyor mu? Bunları göz önünde bulundurarak, iki eğitimli anotatör Çince metnin her cümlesini her çeviriyle karşılaştırdı ve beş ana hata türünü işaretledi: yanlış çeviri, eksiltme, aşırı çeviri (gereksiz eklemeler), kültürel yanlış çeviri ve hikâyenin akışına zarar veren daha geniş söylem düzeyindeki sorunlar.
Makinelerin tökezlediği yerler
Sonuçlar belirgin kalıplar gösterdi. Dört yapay zeka sistemi de akıcı İngilizce üretse de, önemli nüanslarda sık sık tökezlediler. En yaygın sorun yanlış çeviriydi: örneğin eski bakır paralar modern bir “nakit”e dönüşerek köyün tarihsel hissini sessizce değiştirdi. Gemini en fazla içeriği düşürdü; bazen karakterleri birbirine bağlamaya veya atmosfer oluşturmaya yarayan betimleyici ifadeleri atlıyordu. GPT-4 en sık ek yargılayıcı dil ekledi; ince bir romantik ima tam bir “ilişki”ye dönüşerek okuyucunun karakterleri görme biçimini kaydırdı. Kültürel referanslar özellikle hassastı: tütsü ve mum gibi ritüel yaşama bağlı günlük nesneler veya efsanevi bir kahramanın adı sık sık basitleştirildi, modernize edildi veya fazla kelimesi kelimesine ele alındı. Paragraflar düzeyinde bazı modeller, bir metafor veya sahnenin merkezinde kimin olduğunu ince şekilde yeniden düzenleyerek genç kız Cuicui ile büyükbabasının duygusal bağını zayıflatan ana ilişkileri gevşetti.
Göreli güçlü yanlara daha yakından bakış
Tüm sistemler eşit performans göstermedi. Daha yeni ve optimize edilmiş bir model olan GPT-4o neredeyse her kategoride GPT-4’ten daha az hata yaptı; bu da dikkatli ayarlamanın salt model büyüklüğünden daha çok önemli olabileceğini düşündürüyor. Daha az içerik eksiltti, daha az ifade yanlış çevirdi ve cümleler boyunca hikâyeyi daha bütün tutma eğilimindeydi. Buna karşılık Gemini’nin en büyük zayıflığı içerik atmasında ortaya çıktı, özellikle imgelerle ve kültürel ipuçlarıyla yüklü pasajlarda. Çin bağlamında eğitilmiş olmasına rağmen WXYY 4.0 Turbo kültür ağırlıklı pasajlarda açıkça yabancı muadillerini aşmadı; bazı tarihsel ve ritüel terimleri sıradan modern nesneler gibi ele almaya devam etti. Tüm bu makine versiyonlarında insan çevirisi, anlamı, ruhu ve kültürü bir araya getirmede en güvenilir kalan oldu.

Tercümede okumanın geleceği için anlamı
Günlük görevler ve doğrudan metinler için büyük dil modelleri zaten etkileyici yardımlar sunuyor. Ancak bu çalışma, Sınır Kasabası gibi edebi eserler söz konusu olduğunda hayati anlam ve his katmanlarını kaçırdıklarını gösteriyor. En iyi performans gösteren model olan GPT-4o diğerlerine göre daha yakın olsa da, özellikle kültür ve hikâye yapısının söz konusu olduğu yerlerde hâlen insan gözetimine ihtiyaç duyuyor. Yazarlar, yapay zekanın edebi çevirmenleri desteklemesi için daha iyi istemlerin, daha odaklı eğitimin ve sistematik insan son düzenlemelerinin gerekli olduğunu savunuyor. Okurlar için mesaj açık: makine çıktılarına taslak veya yardımcı araç olarak güvenilebilir, ancak bir romanın tam duygusal ve kültürel yaşamı hâlâ insan ustalığına bağlıdır.
Atıf: Yang, W., Yang, M. Evaluating literary translation by large language models: a multidimensional quality assessment of Shen Congwen’s Border Town. Humanit Soc Sci Commun 13, 628 (2026). https://doi.org/10.1057/s41599-026-06868-y
Anahtar kelimeler: edebi çeviri, büyük dil modelleri, makine çevirisi kalitesi, Çin edebiyatı, kültürel nüans