Clear Sky Science · fr

Classification d’images d’architecture ancienne par apprentissage pseudoinverse par empilement progressif

· Retour à l’index

Pourquoi les vieux bâtiments rencontrent les algorithmes modernes

Partout en Chine, temples et palais aux toits courbes et aux complexes supports de bois sont photographiés en grand nombre. Les archivistes et les conservateurs doivent trier ces images rapidement, mais le faire à l’œil est lent et subjectif. Cet article présente une nouvelle façon d’apprendre aux ordinateurs à reconnaître et classer les photos de bâtiments anciens de manière plus précise et efficace, ce qui contribue à protéger le patrimoine culturel à l’ère numérique.

Figure 1
Figure 1.

Ce qui rend ces bâtiments difficiles à distinguer

L’architecture chinoise ancienne regorge de motifs répétitifs : lignes de toit courbées, ensembles de supports superposés sous les avant-toits, poutres sculptées et décorations de surface colorées. De nombreux édifices partagent des plans similaires, ne différant que par de subtiles variations de courbure de toit ou de forme des supports. Les systèmes standard de reconnaissance d’images, qui apprennent en ajustant progressivement des poids internes, peuvent être déstabilisés par ces différences fines et par des éléments distrayants comme la couleur des murs ou l’éclairage. Ils ont aussi tendance à suradapter un style ou une région lorsqu’ils sont entraînés d’un seul coup sur un grand lot d’images, ce qui réduit leur capacité à généraliser à des bâtiments d’autres sites.

Une façon plus intelligente d’examiner les détails clés

Les auteurs présentent un cadre appelé classification d’images d’architecture ancienne par apprentissage pseudoinverse par empilement progressif (AAPSP). Au centre se trouve un module baptisé empilement des caractéristiques clés par apprentissage pseudoinverse (KFSP). Plutôt que de partir de réglages complètement aléatoires, KFSP construit plusieurs « apprenants de base » parallèles, chacun initialisé avec des motifs de poids conçus pour correspondre à des traits visuels particuliers. Deux branches sont réglées pour être particulièrement sensibles aux structures lisses et continues, comme les profils de toit, tandis qu’une troisième est calibrée pour capter des textures plus dispersées comme les motifs décoratifs. Un raccourci mathématique connu sous le nom d’apprentissage pseudoinverse permet d’entraîner ces branches en une seule étape, évitant les mises à jour lentes et itératives des poids des méthodes de deep learning traditionnelles.

Laisser le modèle prêter attention là où cela compte

Avoir plusieurs branches ne suffit pas ; le système doit aussi décider quelle branche est la plus utile pour chaque décision. Pour cela, KFSP utilise un mécanisme d’attention qui mesure dans quelle mesure la sortie de chaque branche correspond aux étiquettes réelles des bâtiments. Les branches qui captent mieux les éléments caractéristiques — comme la forme d’un arc en auge ou le profil d’un ornement de faîtage — se voient automatiquement accorder plus d’influence lors de la combinaison de leurs sorties. Cette représentation empilée forme un espace de caractéristiques qui suit plus étroitement la « logique de la forme » propre à l’architecture ancienne, de sorte que les bâtiments aux composants structurels similaires se regroupent et que ceux aux styles différents se séparent plus clairement.

Figure 2
Figure 2.

Apprendre à partir des photos les plus informatives

Le second module central, apprentissage d’optimisation progressive (POL), s’attaque à un autre problème : les images d’entraînement redondantes. De nombreuses photos de l’ensemble montrent des vues presque identiques d’une même façade, apportant peu d’information nouvelle. POL commence par diviser les données en un jeu d’entraînement initial et un pool de candidats plus large. En s’appuyant sur des idées d’apprentissage actif, il analyse avec quelle confiance le modèle actuel classe chaque image candidate et à quel point ses caractéristiques lui paraissent inhabituelles. Les photos à la fois incertaines et distinctives — comme des agencements de supports rares ou des combinaisons de toits inhabituelles — sont progressivement intégrées au jeu d’entraînement. Ce cycle se répète, enrichissant progressivement les données d’entraînement avec des exemples difficiles et divers sans augmenter le nombre total d’images utilisées.

Quelle est l’efficacité en pratique

Les auteurs ont testé leur approche sur une collection publique de 2 269 images provenant de six temples et palais célèbres. Après l’application de KFSP seul, le système surpassait déjà une méthode comparable reposant sur des projections entièrement aléatoires. Lorsque la sélection progressive d’échantillons de POL a été ajoutée, la précision de classification s’est encore améliorée, et les mesures de précision, rappel et score F1 ont toutes augmenté. En d’autres termes, le modèle est devenu à la fois plus fiable dans ses bonnes prédictions et meilleur pour identifier des catégories moins fréquentes. L’étude a également mis en évidence une difficulté persistante : les classes avec très peu d’images restent problématiques, car même un apprenant performant peine lorsqu’il y a trop peu de variété pour apprendre.

Pourquoi cela compte pour le patrimoine culturel

En orientant soigneusement à la fois ce à quoi le modèle prête attention et quelles images il apprend, AAPSP offre un outil plus précis pour trier et étudier les photos de bâtiments historiques. Pour les professionnels du patrimoine, cela signifie une création plus rapide d’archives numériques, un meilleur soutien pour la datation et la comparaison des styles architecturaux, et une surveillance plus robuste de sites répartis sur différentes régions. Bien que la méthode soit adaptée à l’architecture ancienne chinoise, ses idées fondamentales — mettre en lumière les détails structurels clés et se concentrer progressivement sur des exemples rares mais informatifs — pourraient être adaptées à d’autres types d’objets culturels, des sculptures aux paysages urbains historiques.

Citation: Cai, Z., Sun, X., Zhang, S. et al. Ancient architecture image classification with progressive stacking pseudoinverse learning. Sci Rep 16, 14626 (2026). https://doi.org/10.1038/s41598-026-44876-9

Mots-clés: architecture ancienne, classification d’images, patrimoine culturel, apprentissage automatique, apprentissage actif