Clear Sky Science · tr

Geliştirilmiş Grafik-Almaç Çerçevesi Kullanılarak Somut Olmayan Kültürel Miras Mirasçılarına İlişkin Görsel Bilgi Tanımlama ve Soru-Cevap

· Dizine geri dön

Gizli Gelenekleri Dijital Çağa Taşımak

Çin genelinde, geleneksel opera ustaları, kağıt kesme sanatçıları, gölge kukla ustaları ve diğer yaşayan sanatların ustaları nesiller boyu aktarılan becerileri koruyor. Ancak bu mirasçıların çoğuyla ilgili bilgiler çevrimiçi dağınık dosyalar ve görüntüler halinde bulunduğundan, hem halkın hem de araştırmacıların güvenilir bilgiye ulaşması zorlaşıyor. Bu makale, somut olmayan kültürel miras (SOM) mirasçılarının “görsel kartvizitlerini” otomatik olarak okuyup ardından gelişmiş dil modelleri kullanarak soruları yanıtlayan ve okunabilir raporlar üreten yeni bir bilgisayar çerçevesi sunuyor.

Resim Kartlardan Yapılandırılmış Bilgiye

Birçok kültürel kuruluş artık her mirasçıyı tanıtmak için metin, düzen ve basit grafikleri birleştiren dijital kartlar yayımlıyor: ad, zanaat, yer, biyografi ve daha fazlası. İnsanlar bunları bir bakışta inceleyebilirken, bilgisayarlar kartların farklı bölgelerden gelmesi, çeşitli tasarımlar kullanılması ve sıklıkla eksik ya da hasarlı metin içermesi nedeniyle zorlanıyor. Yazarlar, proje numarası, proje adı, bölge, cinsiyet, çalışma birimi ve kısa açıklama gibi on temel bilgi türüyle dikkatle etiketlenmiş 5.237 Çin SOM mirasçısına ait böyle bir büyük veri seti oluşturuyor. Önce optik karakter tanıma (OCR) ile metni okuyup her parçanın kart üzerindeki konumunu kaydediyorlar, sonra etiketleri standartlaştırmaya yardımcı olması için büyük dil modellerinden faydalanıp nihayet insan uzmanlar tarafından doğruluyorlar.

Figure 1
Figure 1.

Makinelere Düzeni ve Anlamı Öğretmek

Her kartı temiz, yapılandırılmış verilere dönüştürmek için ekip, insanların hem kelimeleri hem de düzeni nasıl kullandığını taklit eden bir “Grafik-Almaç” modeli tasarlıyor. Karttaki her metin kırıntısı grafikte bir düğüm olurken, parçalar arasındaki mekansal ilişkiler—sol, sağ, üst, alt—kenarları oluşturuyor. RoBERTa tabanlı bir dil bileşeni ve çift yönlü LSTM metnin anlamını öğreniyor; sıra dışı zanaat adları veya yerel ifadelerin doğru işlenmesi için yaklaşık 5.000 SOM-özel terimden oluşan bir sözlükle destekleniyor. Bunun üzerine bir grafik sinir ağı, komşu düğümler arasında bilgiyi yayarak her metin parçasının neyi temsil ettiğine dair tahminleri iyileştiriyor (örneğin, bir yer adının bölge mi yoksa çalışma birimi mi olduğuna karar vermek).

Sistemi Gerçek Dünyanın Karışıklığına Dayanıklı Kılmak

Gerçek miras kayıtları nadiren kusursuz olur: kartlar aşınmış, kırpılmış veya kötü taranmış olabilir. Bunun üstesinden gelmek için yazarlar, grafik modellerini veri artırmadan ödünç alınmış üç fikirle güçlendiriyor. Sistemin bağlamdan eksik bilgiyi çıkarabilmeyi öğrenmesi için rastgele bazı düğümleri maskeliyorlar; düzen değişikliklerine tolerans geliştirmesi için bazı kenarları rastgele siliyorlar; ayrıca kart üzerindeki öğelerin genel “okuma sırasını” yakalayan bir konumsal dikkat mekanizması ekliyorlar. Bu üç yöntem birlikte modelin farklı stil ve belge kalitelerine genelleme yapmasına yardımcı oluyor. Dokuz tanınmış rakip metoda karşı yapılan testlerde, yeni yaklaşım ICH kart veri setinde en yüksek makro-ortalama F1 skorunu (0.928) elde ediyor ve ayrıca beş kamu belge ölçütünde de önde gidiyor; bu da onun miras uygulamalarının ötesinde geniş kullanışlılığa sahip olduğunu gösteriyor.

Figure 2
Figure 2.

Döngüsel Almaç ile Daha Akıllı Soru-Cevap

Metni tanımak hikâyenin sadece yarısı; makalenin ikinci katkısı, GPT-4, Llama ve ChatGLM gibi büyük dil modelleriyle çalışan Loop-RAG (Döngüsel Almaç-Destekli Üretim) stratejisidir. Geleneksel almaç-destekli sistemler arka plan belgelerini bir kez getirip ardından bir yanıt üretir ki bu hâlâ eksik veya yanlış olabilir. Buna karşılık Loop-RAG, dil modelinin mevcut yanıt için yeterli bilgiye sahip olup olmadığını tekrar tekrar kontrol eden iç bir döngü ekler ve eğer değilse, vektörleştirilmiş bir SOM bilgi tabanında hedefe yönelik yeni bir aramayı tetikler. Dış bir döngü ise geçmiş etkileşimlerin birçoğunu inceleyerek hangi almaç yolları ve istem (prompt) stillerinin en iyi çalıştığını öğrenir; böylece gereksiz aramaları ve gerçek hatalarını kademeli olarak azaltır.

Ham Kayıtlardan Güvenilir Kültürel Öykülere

Bu birleşik çerçeve kullanılarak sistem, bir mirasçı hakkında zanaatını, bölgesini, temsilî eserlerini ve statüsünü özetleyen kısa raporlar otomatik olarak oluşturabiliyor ve insanlar ile uygulamalara ilişkin binlerce olgusal soruyu yanıtlayabiliyor. BLEU, METEOR ve ROUGE gibi standart dil kalitesi puanlarıyla değerlendirildiğinde, GPT-4 ile Loop-RAG hem sade dil modellerini hem de daha basit almaç kurulumlarını geride bırakıyor; ayrıca soru-cevapta en iyi doğruluğu (F1 değeri 0.941’e kadar) sağlıyor, hatta yalnızca birkaç örnek verildiğinde bile. Sıradan bir okuyucu için bu, gelecekteki kültürel miras platformlarının geleneksel sanatlar hakkında isteğe bağlı, etkileşimli ve güvenilir açıklamalar sunabileceği ve dağınık dijital kayıtları zengin, gezinilebilir öykülere dönüştürerek yaşayan geleneklerin görünür ve değerli kalmasına yardımcı olacağı anlamına geliyor.

Atıf: Wang, R., Zhang, X., Liu, Q. et al. Visual information identification and Q&A of intangible cultural heritage inheritors by using enhanced Graph-Retrieval framework. npj Herit. Sci. 14, 113 (2026). https://doi.org/10.1038/s40494-026-02384-z

Anahtar kelimeler: somut olmayan kültürel miras, bilgi çıkarımı, graf sinir ağları, almaç- destekli üretim, dijital beşeri bilimler