Clear Sky Science · tr

Düşük kaynaklı Yi yazısı tespiti ve veri seti oluşturma için ince taneli temsil öğrenimi

· Dizine geri dön

Kırılgan Bir Yazılı Mirası Kurtarmak

Güneybatı Çinli Yi halkı yüzyıllardır tıp, astronomi, din ve günlük yaşamı kendi yazısıyla kaydeden zengin bir yazılı gelenek korumuş durumda. Ancak bu el yazmalarının birçoğu soluyor, lekeleniyor veya başka şekilde zarar görüyor ve yazı biçimi kendi başına görsel olarak karmaşık. Yüzbinlerce karakteri elle transkribe etmek yavaş ve pahalı. Bu makale, eski belgelerin dijital görüntülerinde Yi karakterlerini bulmak ve izole etmek için özel olarak tasarlanmış yeni bir bilgisayarlı görü sistemi sunuyor; bu, bu tehlike altındaki yazılı mirasın geniş çaplı dijitalleştirilmesi ve korunması için zemin hazırlıyor.

Figure 1
Figure 1.

Bilgisayarlar İçin Bu Yazıyı Bu Kadar Zor Yapan Nedir

Daha tanıdık Latin alfabesi veya hatta modern basılı Çince’nin aksine, Yi karakterleri sık, kıvrımlı vuruşlardan oluşur ve bu vuruşlar sıklıkla birbirinin etrafından dolaşır. Birçok farklı karakter birbirine çok benzer görünür ve aynı karakter zaman içinde ya da farklı el yazmalarında hafifçe farklı şekillerde ortaya çıkabilir. Tarihi sayfalar genellikle sık çok sütunlu düzenler kullanır; düzensiz boşluklar ve örtüşen vuruşlar görülür. Üstelik mürekkep solmuş, sayfalar yamulmuş ve arka plan lekeli olabilir. Bozulmuş kurallara dayanan veya genel amaçlı metin tespiti modellerine yaslanan eski yöntemler komşu karakterleri birleştirme, zayıf vuruşları kaçırma veya arka plan gürültüsünü yazı ile karıştırma eğilimindedir. Yazarlar, Yi el yazmalarının metin tespiti için bir tür “en kötü durum” temsil ettiğini ve bu sorunun çözülmesinin birçok diğer düşük kaynaklı yazıya da yardımcı olabileceğini savunuyor.

İnce Ayrıntıları Görmenin Yeni Bir Yolu

Bu zorlukların üstesinden gelmek için araştırmacılar FGRL-YiNet (Yi için İnce Taneli Temsil Öğrenimi Ağı) adında özel bir sinir ağı tasarlıyor. Ağın özünde, modern görsel tanımanın işçi atı olan standart konvolüsyon katmanlarına yapılan bir dokunuş var. Her yerde tek bir sabit filtre deseni kullanmak yerine, FGRL-YiNet dinamik konvolüsyon kullanır: birden fazla aday filtre paralel çalışır ve küçük bir kapı modülü görüntünün her bölgesi için hangi filtreye ne kadar dayanılacağını belirler. Bu, sistemin yerel vuruş desenlerine göre “alıcı alanını” ince ayar yapmasına olanak sağlar; böylece karmaşık kıvrımları ve birleşme noktalarını daha iyi yakalar, arka plan karmaşası veya sayfa hasarından etkilenmez. Kompakt bir ResNet-18 omurgası üzerine kurulan model, nispeten az etiketli Yi verisinden etkili biçimde öğrenebilmesi için kasıtlı olarak orta boyutta tutuluyor.

Figure 2
Figure 2.

Ölçekleri Birleştirmek ve Sayfayı Temizlemek

Tam bir el yazması sayfasında karakter tespiti, aynı anda birden çok boyuttaki desenleri anlamayı da gerektirir—tek bir vuruştaki küçük dalgalanmalardan tüm bir sütunun düzenine kadar. FGRL-YiNet bunu çözmek için Uyarlanabilir Çok Ölçekli Füzyon (AMSF) modülünü tanıtıyor. Ağ önce birkaç çözünürlükte özellikler çıkarıyor, sonra ortak bir dikkat mekanizması her konumda hangi ölçeğin ve hangi kanalların en önemli olduğuna karar veriyor. Bu dikkatin bir kısmı görüntüde ince ayrıntıların “nerede” önemli olduğunu, diğer kısmı ise hangi tür özelliğin—örneğin belirli bir vuruş kalınlığı veya karakter içindeki küçük bir döngü—faydalı olduğunu belirlemeye odaklanıyor. Paralel olarak, diferansiyellenebilir bir ikili eşik başlığı hem bir olasılık haritası hem de yerel olarak değişen bir eşik tahmin ederek mürekkebi arka plandan ayırmayı öğreniyor. Bu adım ağa gömülü ve uçtan uca eğitildiği için geleneksel siyah-beyaz dönüşümün sileceği zayıf vuruşları korurken, leke ve noktacıkları bastırabiliyor.

Nadir Bir Yazı İçin Bir Kıyas Seti Oluşturmak

Her özel yazı için büyük bir engel veri: yüksek kaliteli dijitalleştirilmiş Yi el yazmaları az bulunuyor ve her bir karakter için kesin etiketlere sahip olanları daha da az. Ekip bu sorunu Liangshan Yi klasiklerinden derlenen YiPrint-694 veri setini inşa ederek çözüyor; bu, 694 sayfa görüntüsü ve 1.165 karakter kategorisi boyunca yaklaşık 347.000 etiketlenmiş karakter sunuyor. Gürültü azaltma, kenar belirginleştirme ve ikileştirme gibi dikkatli ön işlemleri yarı otomatik segmentasyon hattı ve Yi dili uzmanlarının titiz elle kontrolü ile birleştiriyorlar. Daha eski, sararmış sayfaların görünümünü taklit etmek için sararmış ve kahverengileşmiş arka planlara sahip ek görüntüler oluşturuyorlar. Bu düzenlenmiş koleksiyon hem FGRL-YiNet için eğitim zemini oluyor hem de Yi ve ilgili yazılar üzerine yapılacak gelecekteki araştırmalar için halka açık bir kıyas seti sağlıyor.

Sistemin Performansı Nasıl

Geniş bir ileri seviye metin detektörleri kümesine karşı test edildiğinde—Faster R-CNN, DBNet++ ve PSENet gibi yaygın modeller dahil—FGRL-YiNet YiPrint-694 üzerinde en iyi genel skorları elde ediyor. Karakterleri %94,7 gibi yüksek bir F-skor ile tespit ediyor; bu yüksek doğruluk (%98,4) ve güçlü geri çağırma (%91,3) tarafından destekleniyor; yani arka planı nadiren yazı zannediyor ve aynı zamanda sayfadaki karakterlerin çoğunu buluyor. Bileşenlerin tek tek çıkarıldığı ablation deneyleri, dinamik konvolüsyon, uyarlanabilir çok ölçekli füzyon ve diferansiyellenebilir ikileştirmenin her birinin ölçülebilir kazançlar sağladığını ve birlikte en iyi şekilde çalıştığını gösteriyor. Model ayrıca tarihsel Çince Budist metinlerinden oluşan daha büyük MTHv2 veri setine iyi aktarılıyor ve burada önde gelen genel amaçlı detektörlerle rekabetçi performans sergileyerek daha geniş potansiyelini vurguluyor.

Kültürel Koruma İçin Anlamı

Uzman olmayanlar için temel mesaj, özenli ve hedefe yönelik tasarımın, sınırlı eğitim verisi olsa bile bilgisayarların dünyanın en zorlu yazılarını okumalarına yardımcı olabileceği yönünde. Uyarlanabilir filtreler, akıllı çok ölçekli füzyon ve bozulmuş sayfaların yerleşik temizliğini birleştirerek FGRL-YiNet, kalabalık ve zarar görmüş el yazmalarında bireysel Yi karakterlerini güvenilir biçimde tespit edebiliyor. Bu, arama yapılabilir dijital arşivler oluşturmayı, dilbilimsel ve tarihsel araştırmaları desteklemeyi ve Yi halkının yazılı kaydını korumayı çok daha kolay hale getiriyor. Yazarlar mimarilerini ve veri setlerini dünyanın diğer hizmet dışı bırakılmış yazılarına uygulanabilecek bir plan olarak görüyor; yapay zekadaki ilerlemelerin kırılgan kültürel mirası gelecek nesiller için korumada doğrudan bir rol oynayabileceğini gösteriyor.

Atıf: Sun, H., Ding, X., Yu, H. et al. Fine grained representation learning for low resource Yi script detection and dataset construction. npj Herit. Sci. 14, 183 (2026). https://doi.org/10.1038/s40494-026-02418-6

Anahtar kelimeler: Yi yazısı, tarihi el yazmaları, metin tespiti, dijital miras, derin öğrenme