Clear Sky Science · tr
Mimari miras yorumlamasında çok modlu büyük dil modelleri için doğruluğa dayalı veri artırma
Neden eski binalar akıllı dijital yardımcılara ihtiyaç duyar
Birçok tarihi şehirde süslü cadde arkadları ve aşınmış bina cepheleri kayboluyor ya da kökten yenileniyor. Uzmanlar bu mimari mirası belgelemek ve korumak için yarışıyor, ancak bu iş yavaş ilerliyor ve tarz, yapı ve tarih hakkında derin bilgi gerektiriyor. Bu çalışma, fotoğraflara bakabilen ve metin okuyabilen çok modlu büyük dil modelleri gibi yeni bir yapay zeka türünün nasıl yardımcı olabileceğini ve gerçekten eski binaları tahmin etmek yerine anlaması için hangi özenle hazırlanmış eğitim verilerine ihtiyaç duyduğunu araştırıyor.

AI binalara baktığında ve yanlış yaptığında
Yazarlar önce en yeni yapay zeka sistemlerini Çin’in Guangzhou kentindeki tarihi dükkan-evi arkadlarının fotoğrafları üzerinde test ediyor. Qilou olarak bilinen bu yapılar Çin ve Batı etkilerini harmanlar ve uzun, kesintisiz sokak cepheleri oluşturur. Uzmanlar, her sahnede neyin göründüğüne dair: bir balkonun kaç kata yayıldığı, belirli dekoratif desteklerin hangi tür olduğuna, pencere çerçevelerinin hangi malzemeden yapıldığına ve hasarın nasıl değerlendirilmesi gerektiğine dair binlerce çoktan seçmeli soru içeren 50 cephe görüntüsünden oluşan bir kıyas seti oluşturdu. En iyi ticari sistemler bile, bazıları mevcut en büyük modelleri içeriyor olsa da, bu görüntüleri düzenli olarak yanlış okuyor—balkonları yanlış kata yerleştirmek, kilit mimari öğeleri karıştırmak ya da renk temelinde modern alüminyum pencereleri “ahşap” olarak adlandırmak gibi hatalar yapıyor.
İnsanların bir cepheyi nasıl okuduğunu ayırmak
Bu başarısızlıkları anlamak için araştırmacılar miras yorumlamasını üç insan benzeri beceriye ayırıyor. Birincisi görsel algı: pencereler, sütunlar ve yüzey malzemeleri gibi mevcut olanı fark etmek. İkincisi mekânsal akıl yürütme: cephedeki parçaların nasıl hizalandığını ve tekrarlandığını anlamak; simetri ve açıklıkların dikey ile yatay ritmi de buna dahil. Üçüncüsü bağlamsal akıl yürütme: örneğin kabaran boya ciddi bir bozulmayı mı yoksa sadece hafif bir aşınmayı mı gösterir gibi binanın durumu ve tarihi hakkında hüküm vermek. Testleri, günümüzün yapay zeka sistemlerinin özellikle ikinci ve üçüncü becerilerde—kesin mekânsal düzen ve nüanslı anlamda—zorlandığını gösteriyor; çünkü eğitim sırasında nadiren dikkatle etiketlenmiş miras örnekleri görmüşlerdir.
Yine de gerçeği anlatan uydurma görüntülerle AI öğretmek
Daha fazla gerçek fotoğraf ve uzman etiketi toplamak son derece maliyetli olurdu. Bunun yerine ekip, inandırıcı sentetik cephe görüntüleri ve eşleştirilmiş soru–cevap çiftleri yaratan bir veri “amplifikatörü” inşa ediyor. Ana fikir, bir cephenin iki yönünü ayrı ele almak: mekânsal iskeleti (açıklıkların ve süslemelerin tam düzeni ve oranları) ve semantik tadı (malzemeler, tarihî stil ve aşınma). Modern bir görüntü oluşturma motoru kullanılarak, gerçek binalardan çizilen kenar haritalarını izleyerek geometrinin kilitlenmesini sağlayan bir uzman modül ve küçük, tutarlı stil grupları üzerinde eğitilmiş hafif adaptörlerle stilistik ayrıntıları kontrol eden bir diğer modül ekleniyor. Düzenleri ve stilleri karıştırıp eşleştirerek sistem, sadece 208 orijinalden 1.400’den fazla yeni cephe varyasyonu üretiyor ve görünüm ile hissi gerçek mimaride sıkı şekilde temellendiriyor.

Sentetik dünyanın gerçek dünyayla eşleşip eşleşmediğini kontrol etmek
Yazarlar sonra soruyor: bu yapay cepheler gerçek miras verileri gibi davranıyor mu? Yapısal benzerlik, öğrenilmiş özellik uzayında anlamsal yakınlık ve insan uzmanların yargıları karşılaştırılıyor. Nicel puanlar, yapıya odaklanan modülün sentetik binaların düzeninin gerçek örneklerle ne kadar iyi eşleştiğini belirgin şekilde iyileştirdiğini gösterirken, stil odaklı modül çeşitliliği artırıyor ancak otantik bölgesel karakterden sapmıyor. Uzman değerlendiriciler, yükseltilmiş görüntüleri standart bir üreteç tarafından üretilenlere kıyasla çok daha inandırıcı ve stil açısından sadık olarak notluyor ve en önemlisi, malzemeler, öğeler ve hasar hakkında güvenilir soru cevaplamaya yetecek kadar ayrıntıyı koruduklarını belirtiyorlar.
Daha küçük ince ayarlı modellerin daha büyük genel modellere üstünlüğü
Genişletilmiş veri kümesiyle ekip, orta ölçekli açık kaynak görsel-dil modelini ince ayar yapıyor ve ardından karışık Çin ve Avrupa cephe kıyas setleri üzerinde test ediyor. Lider ticari sistemlerden çok daha az iç parametreye sahip olmasına rağmen, ince ayarlı model artık hemen her görev türünde onlardan daha iyi performans gösteriyor; özellikle simetriyi okuma, öğeleri sayma ve hizalama ile malzemeleri ayırt etmede öne çıkıyor. Adım adım açıklamalarının uzman denetimleri, vahşi “halüsinasyonlardan” gerçek görsel kanıtlara dayanan, binayı dikkate alan mantığa doğru bir kaymayı gösteriyor: model gerçek görsel kanıtları referans veriyor, mimari kuralları daha tutarlı uyguluyor ve daha az mantıksal sıçrama yapıyor. Kalan hatalarının analizi perspektif bozulmalarını daha iyi temsil etmek ve görünür çürüme durumunda müdahale gerekliliğine ilişkin mesleki standartları kodlamak gibi yeni ufuklara işaret ediyor.
Bu, tarihi sokulları korumaya nasıl yardımcı olur
Uzman olmayan bir okuyucu için daha derin mesaj, yalnızca daha fazla yapay zeka gücünün mimari mirası korumak için yeterli olmadığıdır. En azından aynı derecede önemli olan, bu sistemlere verdiğimiz verilerin doğruluğu ve yapısıdır. Geometriyi ve gerçek binaların anlamını dikkatle koruyan sentetik cepheler üreterek, bu çalışma kompakt, açıkça erişilebilir bir modelin uzmanlar için daha güvenilir bir ortak haline gelebileceğini gösteriyor. Bu tür sistemler nihayetinde tüm mahalleleri tarayabilir, riskli değişiklikleri işaretleyebilir ve onarım kararlarını ölçeklendirilmiş biçimde destekleyebilir; böylece şehirlerin ayırt edici tarihî sokak manzaralarını hızlı değişim karşısında canlı tutmaya yardımcı olabilirler.
Atıf: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2
Anahtar kelimeler: mimari miras, çok modlu yapay zeka, veri artırma, tarihi cepheler, kültürel koruma