Clear Sky Science · de

Fidelitätsgesteuerte Datenaugmentation für multimodale Large Language Models bei der Interpretation von Baukultur

· Zurück zur Übersicht

Warum alte Gebäude smarte digitale Helfer brauchen

In vielen historischen Städten verschwinden verzierte Arkaden und verwitterte Gebäudefronten oder werden radikal neu gestaltet. Fachleute eilen, um dieses architektonische Erbe zu dokumentieren und zu schützen, doch die Arbeit ist langsam und erfordert tiefes Wissen über Stil, Struktur und Geschichte. Diese Studie untersucht, wie eine neue Art künstlicher Intelligenz — multimodale Large Language Models, die Bilder sehen und Text lesen können — unterstützen könnte und welche sorgfältig gestalteten Trainingsdaten sie benötigt, um alte Gebäude wirklich zu verstehen, statt nur Vermutungen anzustellen.

Figure 1
Figure 1.

Wenn KI Gebäude anschaut und danebenliegt

Die Autorinnen und Autoren beginnen damit, mehrere hochmoderne KI-Systeme an Fotos historischer Ladenhausarkaden in Guangzhou, China, zu testen. Diese Gebäude, als Qilou bekannt, mischen chinesische und westliche Einflüsse und bilden lange, durchgehende Straßenzüge. Fachleute erstellten ein Benchmark-Set aus 50 Fassadenbildern und mehreren tausend Multiple-Choice-Fragen dazu, was in jeder Szene zu sehen ist: wie viele Stockwerke ein Balkon überspannt, ob bestimmte dekorative Stützen einem Typ angehören oder einem anderen, aus welchem Material die Fensterrahmen bestehen und wie Schäden zu bewerten sind. Selbst die besten kommerziellen Systeme, einschließlich einiger der größten verfügbaren Modelle, lesen diese Bilder regelmäßig falsch — sie platzieren Balkone auf der falschen Etage, verwechseln zentrale architektonische Elemente oder bezeichnen moderne Aluminiumfenster aufgrund der Farbe als „Holz“.

Aufschlüsselung, wie Menschen eine Fassade lesen

Um diese Fehler zu verstehen, übertragen die Forschenden die Interpretation von Kulturerbe auf drei menschenähnliche Fertigkeiten. Die erste ist visuelle Wahrnehmung: Erkennen dessen, was vorhanden ist, etwa Fenster, Säulen und Oberflächenmaterialien. Die zweite ist räumliches Denken: Verstehen, wie Teile der Fassade angeordnet sind und sich wiederholen, einschließlich Symmetrie sowie vertikalem und horizontalem Rhythmus der Öffnungen. Die dritte ist kontextuelles Schlussfolgern: Abschätzen, was Zustand und Geschichte des Gebäudes bedeuten, zum Beispiel ob abblätternde Farbe auf ernsthafte Verfallsschäden oder nur auf leichte Abnutzung hindeutet. Ihre Tests zeigen, dass heutige KI-Systeme besonders mit den zweiten und dritten Fertigkeiten — präzisem räumlichen Layout und nuancierter Bedeutung — Schwierigkeiten haben, weil sie beim Training selten sorgfältig beschriftete Beispiele aus dem Kulturerbe gesehen haben.

KI beibringen mit erfundenen Bildern, die dennoch wahr bleiben

Einfach mehr echte Fotos und Expertenlabels zu sammeln wäre extrem kostenintensiv. Stattdessen bauen die Forschenden einen Daten-„Verstärker“, der überzeugende synthetische Fassadenbilder sowie passende Frage-Antwort-Paare erzeugt. Die Kernidee ist, zwei Aspekte einer Fassade getrennt zu behandeln: ihr räumliches Skelett (die genaue Anordnung und Proportionen von Öffnungen und Ornamenten) und ihre semantische Note (Materialien, historischer Stil und Verwitterung). Mit einem modernen Bildgenerierungs-Engine fügen sie ein spezialisiertes Modul hinzu, das die Geometrie durch Kantenkarten aus realen Gebäuden festlegt, und ein weiteres, das stilistische Details über leichte Adapter steuert, die auf kleinen, kohärenten Stilgruppen trainiert sind. Durch das Kombinieren von Layouts und Stilen erzeugt das System aus nur 208 Originalen über 1.400 neue Fassadenvarianten, wobei Erscheinungsbild und Atmosphäre eng an die reale Architektur gebunden bleiben.

Figure 2
Figure 2.

Prüfen, ob die synthetische Welt der realen entspricht

Die Autorinnen und Autoren fragen dann: Verhalten sich diese künstlichen Fassaden wie echte Kulturerbe-Daten? Sie vergleichen strukturelle Ähnlichkeit, semantische Nähe in einem gelernten Merkmalsraum und die Bewertungen menschlicher Expertinnen und Experten. Quantitative Werte zeigen, dass das strukturfokussierte Modul die Übereinstimmung des Layouts synthetischer Gebäude mit realen Beispielen deutlich verbessert, während das stilfokussierte Modul die Vielfalt erhöht, ohne vom authentischen regionalen Charakter wegzudriften. Gutachter bewerten die augmentierten Bilder als weitaus plausibler und stiltreuer als jene eines Standardgenerators und finden, was entscheidend ist, dass sie genügend Detail bewahren, um verlässliche Antworten zu Fragen zu Materialien, Elementen und Schäden zu ermöglichen.

Kleinere feinabgestimmte Modelle, die größere allgemeine übertreffen

Mit diesem erweiterten Datensatz feinjustiert das Team ein mittelgroßes Open-Source-Vision–Language-Modell und testet es an gemischten chinesischen und europäischen Fassadenbenchmarks. Trotz deutlich weniger interner Parameter als führende kommerzielle Systeme übertrifft das getunte Modell diese jetzt in fast allen Aufgabentypen, besonders beim Lesen von Symmetrien, beim Zählen und Ausrichten von Elementen sowie bei der Unterscheidung von Materialien. Expertenprüfungen seiner schrittweisen Erklärungen zeigen eine Verschiebung von wilden „Halluzinationen“ hin zu fundierter, gebäudeorientierter Argumentation: Das Modell bezieht sich auf echte visuelle Belege, wendet architektonische Regeln konsistenter an und macht weniger logische Sprünge. Die Analyse verbleibender Fehler weist auf neue Forschungsfelder hin — etwa eine bessere Repräsentation von Perspektivverzerrungen und die Kodierung beruflicher Standards dafür, wann sichtbarer Verfall tatsächlich Eingriffe erfordert.

Wie das hilft, historische Straßenzüge zu schützen

Für nichtfachliche Leserinnen und Leser lautet die tiefere Botschaft: Mehr KI-Leistung allein reicht nicht aus, um architektonisches Erbe zu sichern. Mindestens ebenso wichtig sind die Treue und Struktur der Daten, die wir in diese Systeme einspeisen. Indem sie synthetische Fassaden erzeugen, die Geometrie und Bedeutung realer Gebäude sorgfältig bewahren, zeigen die Forschenden, wie ein kompaktes, offen verfügbares Modell zu einem vertrauenswürdigeren Partner für Fachleute werden kann. Solche Systeme könnten schließlich ganze Viertel scannen, riskante Veränderungen melden und Reparaturentscheidungen in großem Maßstab unterstützen — und so Städten helfen, ihre charakteristischen historischen Straßenzüge angesichts rascher Veränderungen lebendig zu erhalten.

Zitation: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2

Schlüsselwörter: bauliches Kulturerbe, multimodale KI, Datenaugmentation, historische Fassaden, kultureller Erhalt