Clear Sky Science · tr

M3SFormer: duvar resmi görüntü tamiri için çok aşamalı anlamsal ve stil-entegrasyonlu transformer

· Dizine geri dön

Solmuş Duvar Sanatını Yeniden Canlandırmak

Çin’deki tapınaklar ve mağaralarda antik duvar resimleri ve parşömen tablolar yavaşça erozyona uğruyor—boya pul pul dökülüyor, yüzler kayboluyor ve tüm sahneler zamanla yok oluyor. Konservatörler artık bu eserleri güvenli bir şekilde incelemek ve bir zamanlar nasıl göründüklerini tasavvur etmek için giderek daha fazla dijital araçlara güveniyor. Bu makale, hasarlı duvar resimlerini ve geleneksel tabloları özgün yapı, renk ve sanatsal üsluba sadık kalarak eksik bölgeleri dolduracak şekilde “tamir” etmek üzere özel olarak tasarlanmış yeni bir yapay zeka sistemi olan M3SFormer’ı tanıtıyor.

Figure 1
Figure 1.

Neden Eski Duvar Resimlerini Onarmak Bu Kadar Zor?

Tarihi duvar resimlerini restore etmek, bir aile fotoğrafındaki küçük çizikleri gidermekten çok daha zordur. Duvar resimleri genellikle yoğun desenler, hassas fırça işçiliği ve figürlerle, giysilerle ve arka planla arasında ani renk sınırları içerir. Özellikle standart konvolüsyonel sinir ağlarına dayanan önceki derin öğrenme yöntemleri küçük çizikler için iyi çalışsa da, büyük parçalar eksik olduğunda başarısız olabiliyor. Önemli çizgileri bulanıklaştırabilir, çevresindeki görüntüyle çelişen şekiller uydurabilir veya duvar resimlerine karakterini veren dramatik kontrastları düzeltebilirler. Diğer yaklaşımlar ise görüntü bilgisini çok agresif şekilde sıkıştırarak, korumacıların en çok önem verdiği çok yüksek frekanslı ayrıntıları—ince çatlaklar, saç çizgileri, tekstil dokuları—gözden çıkarabiliyor.

Üç Aşamalı Dijital Restorasyon Boru Hattı

M3SFormer bu zorlukları kaba’dan ince’ye çok aşamalı bir boru hattıyla ele alır. İlk olarak, Global Yapı Muhakemesi (Global Structure Reasoning) adımı görüntüyü küçük yamalara böler ve bir transformer—başlangıçta dil için geliştirilen bir model—kullanarak duvarın uzak parçalarının birbirleriyle nasıl ilişkili olduğunu anlar. Ağır nicemleme (quantization) kaynaklı tipik bilgi kaybı olmadan uzun menzilli bağlantıları modelleyerek bu aşama duvar resminin ayrıntılı, küresel bir taslağını oluşturur. Ardından Anlamsal–Stilistik Tutarlılık (Semantic–Stylistic Consistency) aşaması iki tür üst düzey rehberlik getirir: görüntüyü anlamlı bölgelere (örneğin yüzler, cüppeler veya arka plan) ayırır ve önceden eğitilmiş bir ağ kullanarak her bölgenin karakteristik doku ve renklerini öğrenir. Son olarak, Akış-Yönlendirmeli İyileştirme (Flow-Guided Refinement) aşaması restorasyonu kademeli bir evrim olarak ele alır; öğrenilmiş bir “hız alanı” kullanarak başlangıç tahminini görsel olarak tutarlı nihai sonuca doğru birçok küçük adımda iter.

Figure 2
Figure 2.

Yapı ve Üslubu Uyumlu Tutmak

Çalışmanın temel fikri, içerik ve üslubun birlikte ama karıştırılmadan ele alınması gerektiğidir. Modelin anlamsal bileşeni, Mask2Former olarak bilinen güçlü bir segmentasyon sistemine dayanarak ağın sahnedeki farklı öğelerin nerede başladığını ve bittiğini söylemesini sağlar. Bunun üzerine stil bileşeni, restorasyon yapılan bölgelerin her anlamsal alanda orijinale ne kadar yakın olduğunu çok katmanlı bir özellik deseni karşılaştırması (Gram matrisleri aracılığıyla) ile ölçer. Bu, sistemin bir figürün yüzünü desenli bir cüppeden veya bulutlu bir gökyüzünden farklı şekilde ele almasına izin verir; tek bir küresel stil kuralı uygulayarak yerel farklılıkları yok etmeye çalışmaz. İyileştirme aşamasında anlamsal maskeler, akış alanı için koruyucu bariyerler gibi davranarak doldurulan piksellerin hem yapı hem de stil ile tutarlı şekillerde evrilmesini sağlar.

Yöntemi Test Etmek

M3SFormer’ın gerçekçi ortamlarda ne kadar iyi çalıştığını görmek için yazarlar iki büyük veri seti derlediler: birisi çeşitli bölgelerden Çin duvar resimleri, diğeri ise geleneksel manzara tabloları. Gerçek çatlaklar ve eksik parçalar modelleyen maskeler kullanarak hasar simülasyonu yaptılar ve yöntemlerini transformer ve difüzyon tabanlı sistemler de dahil olmak üzere yedi son teknoloji alternatifle karşılaştırdılar. Görüntü kalitesi, yapısal benzerlik ve algısal gerçekçilik için standart ölçütlerde M3SFormer özellikle hasarlı alan büyük ve karmaşık olduğunda tutarlı biçimde öne çıktı. Görsel karşılaştırmalar, bir çok rakip yöntemi rahatsız eden bulanıklaşma, tuhaf renk lekeleri ve gürültülü beneklenmelerden kaçındığını ve yine de gerçek dünya kullanımına uygun pratik bir hızda çalıştığını gösteriyor.

Sınırlılıklar, Dersler ve Gelecek Olanakları

Güçlerine rağmen M3SFormer sihirli bir panzehir değildir. Çok büyük eksik bölümler veya son derece karmaşık tasarımlarla karşılaştığında, tarihsel gerçeklikle çelişen detaylar hayal edebilir—bu, her zaman olası yeniden yapılandırma ile spekülasyon arasındaki sınırı korumak zorunda olan konservatörler için önemli bir uyarıdır. Yazarlar, gelecekteki sürümlerin modelin hayal gücünü sabitlemek için eskizler veya kısa metin açıklamaları gibi açık istemler (prompts) içermesi gerektiğini öneriyor. Bu uyarılara rağmen, yaklaşım müzeler ve araştırmacılar için güçlü yeni bir araç seti sunuyor: ayrıntılı, stil açısından sadık dijital rekonstrüksiyonlar üretme, müdahale gerektirmeyen “ya olsaydı” restorasyonlarını keşfetme ve kırılgan kültürel hazinelerin orijinal boyalar solduktan sonra bile incelenip takdir edilebilmesini sağlama yolları.

Atıf: Hu, Q., Ge, Q., Zhang, Y. et al. M3SFormer: multi-stage semantic and style-fused transformer for mural image inpainting. npj Herit. Sci. 14, 64 (2026). https://doi.org/10.1038/s40494-026-02325-w

Anahtar kelimeler: dijital duvar resmi restorasyonu, görüntü tamiri, kültürel miras, transformer modelleri, sanat koruma