Clear Sky Science · pl
Augmentacja danych ukierunkowana na wierność dla multimodalnego wielkiego modelu językowego w interpretacji dziedzictwa architektonicznego
Dlaczego stare budynki potrzebują inteligentnych cyfrowych pomocników
W wielu historycznych miastach ozdobne arkady i zniszczone elewacje znikają lub są radykalnie przebudowywane. Eksperci ścigają się, by dokumentować i chronić to dziedzictwo architektoniczne, lecz praca ta jest powolna i wymaga głębokiej wiedzy o stylu, konstrukcji i historii. Badanie to analizuje, jak nowy rodzaj sztucznej inteligencji — multimodalne wielkie modele językowe, które potrafią oglądać obrazy i przetwarzać tekst — może pomóc oraz jakiego rodzaju starannie przygotowanych danych treningowych potrzebują, aby naprawdę rozumieć stare budynki zamiast je jedynie zgadywać.

Kiedy AI patrzy na budynki i się myli
Autorzy zaczynają od przetestowania kilku najnowocześniejszych systemów AI na zdjęciach historycznych arkad handlowo-mieszkaniowych z Kantonu (Guangzhou) w Chinach. Te budynki, zwane Qilou, łączą wpływy chińskie i zachodnie i tworzą długie, ciągłe pierzeje uliczne. Specjaliści przygotowali benchmark składający się z 50 zdjęć elewacji i tysięcy pytań w formie wielokrotnego wyboru dotyczących tego, co pojawia się na każdej scenie: ile kondygnacji obejmuje balkon, czy określone podpory ozdobne są jednego typu czy innego, z jakiego materiału wykonane są ramy okienne i jak ocenić uszkodzenia. Nawet najlepsze komercyjne systemy, w tym niektóre z największych dostępnych modeli, regularnie mylą się przy odczytywaniu tych zdjęć — umieszczają balkony na niewłaściwej kondygnacji, mylą kluczowe elementy architektoniczne lub opisują nowoczesne aluminiowe okna jako „drewniane” głównie na podstawie koloru.
Rozkład tego, jak ludzie czytają elewację
Aby zrozumieć te porażki, badacze modelują interpretację dziedzictwa za pomocą trzech umiejętności przypominających ludzkie. Pierwsza to percepcja wizualna: dostrzeganie tego, co się pojawia, jak okna, kolumny i materiały powierzchniowe. Druga to rozumowanie przestrzenne: rozumienie, jak części elewacji ustawiają się i powtarzają, w tym symetrii oraz rytmu pionowego i poziomego otworów. Trzecia to rozumowanie kontekstowe: ocenianie, co stan budynku i jego historia sugerują — na przykład czy łuszczący się tynk oznacza poważne zniszczenia, czy tylko lekkie zużycie. Ich testy pokazują, że dzisiejsze systemy AI szczególnie mają problemy z drugą i trzecią umiejętnością — precyzyjnym układem przestrzennym i subtelnym znaczeniem — ponieważ rzadko widziały podczas treningu starannie oznakowane przykłady dziedzictwa.
Nauczanie AI za pomocą syntetycznych obrazów, które wciąż mówią prawdę
Proste zbieranie większej liczby realnych zdjęć i etykiet eksperckich byłoby niezwykle kosztowne. Zamiast tego zespół buduje „wzmacniacz” danych, który tworzy przekonujące syntetyczne obrazy elewacji oraz pasujące pary pytań i odpowiedzi. Kluczowa idea polega na traktowaniu dwóch aspektów elewacji oddzielnie: jej szkieletu przestrzennego (dokładne rozmieszczenie i proporcje otworów i ornamentów) oraz semantycznego charakteru (materiały, styl historyczny i ślady weatheringu). Korzystając z nowoczesnego silnika generowania obrazów dodają jeden wyspecjalizowany moduł, który utrwala geometrię, podążając za mapami krawędzi wyprowadzonymi z rzeczywistych budynków, oraz drugi, który kontroluje detale stylistyczne za pomocą lekkich adapterów trenowanych na małych, spójnych grupach stylów. Mieszając układy i style, system generuje ponad 1 400 nowych wariantów elewacji z zaledwie 208 oryginałów, utrzymując wygląd i charakter silnie osadzony w realnej architekturze.

Sprawdzanie, czy świat syntetyczny odpowiada rzeczywistemu
Autorzy pytają następnie: czy te sztuczne elewacje zachowują się jak rzeczywiste dane dziedzictwa? Porównują podobieństwo strukturalne, bliskość semantyczną w wyuczonym przestrzeni cech oraz oceny ekspertów. Wyniki ilościowe pokazują, że moduł skupiający się na strukturze znacząco poprawia dopasowanie układu syntetycznych budynków do rzeczywistych przykładów, podczas gdy moduł stylistyczny zwiększa różnorodność bez odpływania od autentycznego lokalnego charakteru. Recenzenci eksperccy oceniają obrazy wygenerowane w ramach augmentacji jako znacznie bardziej wiarygodne i stylistycznie wierne niż te stworzone przez standardowy generator i, co istotne, stwierdzają, że zachowują wystarczającą ilość szczegółów do wiarygodnego odpowiadania na pytania o materiały, elementy i uszkodzenia.
Mniejsze dostrojone modele, które przewyższają większe ogólne
Wyposażeni w ten rozszerzony zbiór danych, badacze dostrajają średniej wielkości otwartoźródłowy model wizualno‑językowy, a następnie testują go na mieszanych benchmarkach elewacji chińskich i europejskich. Pomimo posiadania znacznie mniejszej liczby parametrów wewnętrznych niż wiodące systemy komercyjne, dostrojony model teraz je przewyższa we niemal wszystkich typach zadań, zwłaszcza w czytaniu symetrii, liczeniu i wyrównywaniu elementów oraz rozróżnianiu materiałów. Audyty ekspertów dotyczące jego krok po kroku wyjaśnień pokazują przesunięcie od dzikich „halucynacji” ku ugruntowanemu, świadomemu budynku rozumowaniu: model powołuje się na rzeczywiste dowody wizualne, stosuje zasady architektoniczne bardziej konsekwentnie i dokonuje mniej logicznych skoków. Analiza pozostałych błędów wskazuje nowe granice — takie jak lepsze odwzorowanie zniekształceń perspektywicznych i kodowanie standardów zawodowych określających, kiedy widoczne zniszczenia rzeczywiście wymagają interwencji.
Jak to pomaga chronić historyczne ulice
Dla czytelnika niebędącego specjalistą głębsze przesłanie jest takie, że sama większa moc AI nie wystarcza, aby zabezpieczyć dziedzictwo architektoniczne. Równie ważna jest wierność i struktura danych, które wprowadzamy do tych systemów. Generując syntetyczne elewacje, które starannie zachowują geometrię i znaczenie prawdziwych budynków, badanie pokazuje, jak kompaktowy, dostępny powszechnie model może stać się bardziej godnym zaufania partnerem dla ekspertów. Takie systemy mogłyby ostatecznie skanować całe dzielnice, wykrywać ryzykowne zmiany i wspierać decyzje o remontach na dużą skalę, pomagając miastom zachować charakterystyczne historyczne pierzeje ulic w obliczu szybkich zmian.
Cytowanie: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2
Słowa kluczowe: dziedzictwo architektoniczne, sztuczna inteligencja multimodalna, augmentacja danych, historyczne elewacje, ochrona kulturowa