Clear Sky Science · fr

Augmentation de données axée sur la fidélité pour un grand modèle multimodal appliqué à l’interprétation du patrimoine architectural

2026-03-25 · Retour à l’index

Pourquoi les bâtiments anciens ont besoin d’aides numériques intelligentes

Dans de nombreuses villes historiques, les arcades de rue ornées et les façades usées disparaissent ou sont radicalement reconstruites. Les spécialistes s’efforcent de documenter et de protéger ce patrimoine architectural, mais le travail est lent et exige une connaissance approfondie du style, de la structure et de l’histoire. Cette étude examine comment un nouveau type d’intelligence artificielle — des grands modèles de langage multimodal capables d’analyser des images et de lire du texte — pourrait aider, et quel type de données d’entraînement soigneusement conçues ils nécessitent pour réellement comprendre les bâtiments anciens plutôt que de simplement émettre des hypothèses.

Quand l’IA regarde les bâtiments et se trompe

Les auteurs commencent par tester plusieurs systèmes d’IA à la pointe sur des photos d’arcades de boutiques historiques à Guangzhou, en Chine. Ces bâtiments, appelés Qilou, mêlent influences chinoises et occidentales et forment des façades urbaines longues et continues. Des spécialistes ont créé une référence composée de 50 images de façades et de milliers de questions à choix multiple sur ce qui apparaît dans chaque scène : combien d’étages occupe un balcon, si certains supports décoratifs sont d’un type ou d’un autre, de quel matériau sont faits les cadres de fenêtres, et comment évaluer les dommages. Même les meilleurs systèmes commerciaux, y compris certains des plus grands modèles disponibles, interprètent régulièrement mal ces images — attribuant des balcons au mauvais étage, confondant des éléments architecturaux clés, ou appelant des fenêtres modernes en aluminium « en bois » principalement sur la base de la couleur.

Décomposer la manière dont les personnes lisent une façade

Pour comprendre ces échecs, les chercheurs traduisent l’interprétation du patrimoine en trois compétences de type humain. La première est la perception visuelle : remarquer ce qui est présent, comme les fenêtres, les colonnes et les matériaux de surface. La seconde est le raisonnement spatial : comprendre comment les parties de la façade s’alignent et se répètent, y compris la symétrie et le rythme vertical et horizontal des ouvertures. La troisième est le raisonnement contextuel : décider de ce que l’état et l’histoire du bâtiment impliquent, par exemple si une peinture qui s’écaille signale une détérioration sérieuse ou seulement une usure légère. Leurs tests montrent que les systèmes d’IA actuels ont particulièrement du mal avec les deuxième et troisième compétences — la précision de la disposition spatiale et la signification nuancée — parce qu’ils ont rarement vu d’exemples patrimoniaux soigneusement étiquetés lors de l’entraînement.

Apprendre à l’IA avec des images fabriquées mais fidèles

Collecter simplement davantage de photos réelles et d’étiquettes d’experts serait extrêmement coûteux. À la place, l’équipe construit un « amplificateur » de données qui crée des images de façades synthétiques convaincantes ainsi que des paires question–réponse correspondantes. L’idée clé est de traiter séparément deux aspects d’une façade : son squelette spatial (l’agencement exact et les proportions des ouvertures et des ornements) et sa saveur sémantique (matériaux, style historique et patine). En utilisant un moteur de génération d’images moderne, ils ajoutent un module spécialisé qui verrouille la géométrie en suivant des cartes de contours issues de bâtiments réels, et un autre qui contrôle les détails stylistiques via des adaptateurs légers entraînés sur de petits groupes de styles cohérents. En mélangeant mises en page et styles, le système produit plus de 1 400 nouvelles variations de façades à partir de seulement 208 originaux, tout en conservant l’apparence et la sensation solidement ancrées dans l’architecture réelle.

Vérifier si le monde synthétique correspond au monde réel

Les auteurs se demandent ensuite : ces façades artificielles se comportent-elles comme des données patrimoniales réelles ? Ils comparent la similarité structurelle, la proximité sémantique dans un espace de caractéristiques appris, et les jugements d’experts humains. Les scores quantitatifs montrent que le module axé sur la structure améliore nettement la correspondance de la disposition des bâtiments synthétiques avec les exemples réels, tandis que le module axé sur le style augmente la diversité sans s’éloigner du caractère régional authentique. Les évaluateurs experts jugent les images augmentées bien plus plausibles et stylistiquement fidèles que celles produites par un générateur standard et, élément crucial, estiment qu’elles conservent suffisamment de détails pour répondre de manière fiable aux questions sur les matériaux, les éléments et les dommages.

Des modèles plus petits et ajustés qui surpassent les grands modèles généraux

Armés de cet ensemble de données élargi, l’équipe affine un modèle vision–langage open source de taille moyenne, puis le teste sur des références mixtes de façades chinoises et européennes. Malgré un nombre de paramètres internes bien inférieur à celui des systèmes commerciaux dominants, le modèle affiné les bat désormais sur presque tous les types de tâches, en particulier pour lire la symétrie, compter et aligner les éléments, et distinguer les matériaux. Les audits d’experts de ses explications étape par étape montrent un déplacement des « hallucinations » vers un raisonnement mieux ancré et conscient du bâtiment : le modèle cite des preuves visuelles réelles, applique les règles architecturales de façon plus cohérente et fait moins de sauts logiques. L’analyse des erreurs restantes ouvre de nouveaux horizons — comme mieux représenter les distorsions de perspective et formaliser les normes professionnelles pour déterminer quand la dégradation visible exige réellement une intervention.

Comment cela aide à protéger les rues historiques

Pour un lecteur non spécialiste, le message plus profond est que la simple augmentation de la puissance de l’IA ne suffit pas à protéger le patrimoine architectural. Ce qui importe au moins autant, c’est la fidélité et la structure des données que nous fournissons à ces systèmes. En générant des façades synthétiques qui préservent soigneusement la géométrie et le sens des bâtiments réels, cette étude montre comment un modèle compact et ouvert peut devenir un partenaire plus fiable pour les experts. De tels systèmes pourraient à terme scanner des quartiers entiers, signaler des altérations risquées et aider à prendre des décisions de réparation à grande échelle, contribuant à maintenir vivantes les rues historiques distinctives face aux changements rapides.

Citation: Huang, R., Lin, HC. & Zeng, W. Fidelity-driven data augmentation for multimodal large language model on architectural heritage interpretation. npj Herit. Sci. 14, 179 (2026). https://doi.org/10.1038/s40494-026-02446-2

Mots-clés: patrimoine architectural, IA multimodale, augmentation de données, façades historiques, préservation culturelle