Clear Sky Science · tr

Geo-TCAM: konu modellemeyi geometriyle yönlendirilen mekânsal dikkatle birleştiren bir Thangka altyazılama yöntemi

2026-02-07 · Dizine geri dön

Antik Sanat Akıllı Teknolojiyle Buluşuyor

Thangka tabloları — birçok Tibet tapınağında görülen canlı renkli rulo resimler — küçük ayrıntılar ve dinsel anlam katmanlarıyla doludur. Uzman eğitimi olmayan müze ziyaretçileri veya çevrimiçi izleyiciler için bu sembolizmin çoğu kavranması zordur. Bu çalışma, Thangka görüntülerine ilişkin zengin ve doğru açıklamalar otomatik olarak üretebilen Geo‑TCAM adlı bir yapay zekâ (YZ) sistemi sunuyor; amaç, dünyanın dört bir yanındaki insanların bu benzersiz kültürel mirası daha iyi anlamasına ve korumasına yardımcı olmak.

Neden Thangka Görselleri Bilgisayarlar İçin Zor?

Günlük fotoğraflardan farklı olarak Thangka eserleri kasıtlı olarak yoğun ve semboliktir. Tek bir resimde merkezi bir tanrı, düzinelerce küçük figür, desenli bordürler ve her biri dinsel anlam taşıyan belirli el hareketleri, nesneler, renkler ve duruşlar bulunabilir. Standart görüntü‑altyazı programları “bir köpek plajda” gibi basit sahnelerle genellikle iyi başa çıkarken, burada zorlanırlar: ana Budayı adlandırabilirler ancak onun bir kase mi yoksa bir kılıç mı tuttuğunu, duruşunu yanlış okuyabilir veya benzer görünen başka bir tanrıyla karıştırabilirler. Bu tür hatalar önemsiz değildir — resmin anlatmayı amaçladığı hikâyeyi ve doktrini tersine çevirebilir, eğitimsel ve kültürel değerini zayıflatabilir.

Kutsal Görselleri Tanımlamak İçin Yeni Bir Plan

Geo‑TCAM bu sorunları üç fikri birleştirerek ele alır: çok katmanlı görsel özellikler, Thangka sanatı hakkındaki konu bilgisi ve yüz gibi kilit alanlara geometriyle yönlendirilen dikkat. Önce, her görüntüyü aynı anda birkaç düzeyde incelemek için derin bir ağ (ResNet50) kullanır: orta düzey katmanlar kenarları, dokuları ve basit şekilleri yakalarken daha derin katmanlar genel kompozisyonu özetler. Bu düzeyleri birleştirerek model, süslemeler gibi ince ayrıntıları ve arka plan ile figürlerin geniş düzenini fark edebilir; tek bir katmana odaklanan önceki sistemlerden daha zengin bir görsel anlayış sağlar.

Modele Thangka “Konu”larını Öğretmek

Görme tek başına yeterli değildir; sistemin ayrıca Thangka diline ve temalarına dair bir anlayışa ihtiyacı vardır. Bunu sağlamak için araştırmacılar, binlerce uzman tarafından yazılmış Thangka betimlemesi üzerinde bir konu modeli eğittiler. Bu model sözcükleri birkaç ortak tema etrafında gruplar — örneğin Buddhalar, Bodhisattvalar, lotus tahtları, ritüel gereçleri veya koruyucu tanrılarla ilgili olanlar gibi. Her yeni görüntü için Geo‑TCAM hangi temaların en alakalı olduğunu tahmin eder ve bu bilgiyi görsel özelliklerle harmanlar. Ardından bir dikkat mekanizması olası konularla en iyi eşleşen görüntü bölgelerini vurgular. Etkin bir şekilde, hangi nesnelerin ve sembollerin birlikte görünme eğiliminde olduğuna dair ön bilgi, YZ’yi daha anlamlı, kültürel olarak duyarlı betimlemelere yönlendirir.

YZ’nin En Önemli Yere “Bakmasına” İzin Vermek

Üçüncü yenilik, geometriyle yönlendirilen yüzsel mekânsal dikkat (GFSA) modülüdür. Thangka kompozisyonları genellikle ana figürün yüzünü tablonun yaklaşık olarak öngörülebilir bölgelerine yerleştirir. Geo‑TCAM, bu alanı ve çevresindeki eller ile duruşu hedeflemek için basit kenar algılama araçları kullanır; ardından altyazı oluşturulurken bu piksellerin etkisini artıran özel bir dikkat mekanizması uygular. Bu “önce konumlandır, sonra yönlendir” stratejisi, merkezi tanrının erken yanlış tanımlanmasının önüne geçmeye yardımcı olur; aksi halde bu yanlışlık jestler, nitelikler ve statü hakkında uzun zincirli metin hatalarına yol açabilir. Görsel ısı haritaları, GFSA ile modelin ana figürün yüzüne ve kilit nesnelere daha temiz odaklandığını, aynı zamanda önemli arka plan motiflerini takip etmeyi sürdürdüğünü gösterir.

Geo‑TCAM Ne Kadar İyi?

Yaklaşımı test etmek için yazarlar, her biri ayrıntılı uzman açıklamalarıyla dikkatle etiketlenmiş yaklaşık 4.000 görüntüden oluşan özel bir D‑Thangka veri kümesi oluşturdular. Bu veri kümesinde Geo‑TCAM, popüler AoANet ve büyük görsel‑dil modelleri de dahil olmak üzere birkaç güçlü altyazılama sisteminin açık ara önüne geçti. Metrike bağlı olarak puanları baz modele göre yaklaşık %120’ye kadar iyileşti ve insan değerlendiriciler doğruluk, akıcılık ve ayrıntı zenginliği açısından büyük çoğunlukla onun altyazılarını tercih ettiler. Önemli olarak, aynı model standart bir günlük fotoğraf koleksiyonu (COCO veri kümesi) üzerinde değerlendirildiğinde de önde gelen yöntemlerle rekabetçi kaldı; bu da tasarımının güçlü olduğu kadar genel amaçlı da olduğunu gösterir.

Bu, Miras ve Ötesi İçin Ne Anlama Geliyor?

Uzman olmayanlar için temel çıkarım şudur: Geo‑TCAM görsel olarak karmaşık Thangka tablolarını kimin tasvir edildiğini, ne yaptığını ve bu ayrıntıların neden önemli olduğunu vurgulayan açık, bilgilendirici anlatılara dönüştürebilir. Katmanlı görsel analiz, uzman metinlerden öğrenilmiş temalar ve yüzlere ile jestlere özel dikkat karışımı sayesinde sistem, altyazılarını bu eserleri insan uzmanların okuma biçimine çok daha yakın hale getirir. Uzun vadede bu tür araçlar dijital arşivleri, müze rehberlerini ve eğitim platformlarını destekleyerek ezoterik dinsel sanatı daha erişilebilir kılabilir ve korumacıların ile akademisyenlerin hassas kültürel hazineleri belgelemesine ve korumasına yardımcı olabilir.

Atıf: Zhong, P., Hu, W., Zhao, Y. et al. Geo-TCAM: a Thangka captioning method integrating topic modeling with geometry-guided spatial attention. npj Herit. Sci. 14, 87 (2026). https://doi.org/10.1038/s40494-026-02343-8

Anahtar kelimeler: Thangka görüntü altyazılama, kültürel miras yapay zekâ, görsel dikkat, konu modelleme, sanat koruma