Clear Sky Science · fr
Atténuer les caractéristiques fallacieuses par apprentissage contrastif pour la reconnaissance de tessons de poterie
Pourquoi les pots cassés comptent pour la science moderne
À première vue, des tas de poteries brisées provenant d’un village vieux de 7 000 ans dans le sud de la Chine semblent loin de l’intelligence artificielle moderne. Pourtant, ces fragments sont une clé pour comprendre la vie néolithique — et ils révèlent aussi une faiblesse cachée des systèmes modernes de reconnaissance d’images. Cette étude utilise l’apprentissage automatique avancé pour trier des tessons de poterie Hemudu en types, tout en s’attaquant à un problème qui affecte de nombreux systèmes d’IA : la tendance à se raccrocher à des « raccourcis » visuels trompeurs plutôt qu’aux indices réellement significatifs.

Anciens pots et histoires cachées
Le site archéologique de Hemudu a livré environ 400 000 fragments de poterie, une mine d’informations pour reconstituer la vie quotidienne, la technologie et le commerce dans le sud de la Chine néolithique. Deux types principaux de poterie dominent le site. La poterie à matrice sableuse est remplie de sable et de graviers, ce qui la rend dense, dure et résistante à la chaleur. La poterie à matrice de charbon de bois incorpore des matières végétales brûlées, laissant de petites pores et des traces de cendre qui rendent les vases plus légers et plus lisses. Les archéologues classent ces types principalement par la texture de surface et la composition matérielle, non par le contour irrégulier de chaque fragment cassé. Automatiser cette classification pourrait faire gagner un temps considérable aux spécialistes, mais seulement si l’ordinateur se concentre sur les mêmes indices que ceux en lesquels les experts ont confiance.
Quand l’IA apprend la mauvaise leçon
Les chercheurs ont constitué une collection d’images soigneusement contrôlée sur le site de fouille, photographiant 1 864 tessons dans une tente à l’épreuve de la lumière avec un éclairage constant et des fonds blancs. De manière surprenante, les premières expériences ont montré qu’un réseau profond standard pouvait classer la poterie assez bien en n’utilisant que les formes des fragments, atteignant une forte précision sur des images binarisées ne montrant que le contour. En revanche, lorsque les chercheurs rognaient les bords pour ne conserver que la texture intérieure de la surface, la précision chutait. Cela signifiait que le modèle avait trouvé un raccourci facile mais peu fiable : les formes spécifiques de cassure, que les archéologues considèrent comme des accidents aléatoires de casse et non comme des marqueurs fiables du type de poterie. En termes d’apprentissage automatique, la forme du fragment agissait comme une « caractéristique fallacieuse » — un motif qui corrèle avec l’étiquette dans le jeu de données mais qui n’est pas véritablement lié à la catégorie sous-jacente.
Apprendre au modèle à ignorer le raccourci
Pour orienter le système vers des indices plus significatifs, l’équipe a conçu une stratégie d’entraînement basée sur l’apprentissage contrastif, une technique qui apprend au modèle quelles images doivent être considérées comme « similaires » ou « différentes ». Pour chaque photo de poterie, ils ont créé une version recadrée aléatoirement de sorte qu’une grande partie du contour disparaissait tandis que la surface interne restait visible. Les deux images étaient passées par le même réseau d’extraction de caractéristiques, et le processus d’entraînement contraignait leurs représentations internes à se rapprocher. En parallèle, les images de types de poterie différents étaient repoussées plus loin dans cet espace de caractéristiques. Une fonction de perte spécialisée, le « Triplet-center loss », a resserré les grappes de tessons d’une même classe et séparé les grappes de pièces à matrice sableuse et à matrice de charbon, même lorsque leurs textures semblaient assez similaires à l’œil nu.

Rendre l’apprentissage plus stable et fiable
Après avoir façonné cet espace de caractéristiques, les chercheurs l’ont figé et entraîné un classifieur simple par-dessus. Pour éviter le piège bien connu du surapprentissage — obtenir d’excellents résultats sur les données d’entraînement mais échouer sur de nouveaux échantillons — ils ont utilisé une technique appelée flooding. Plutôt que de pousser l’erreur d’entraînement à zéro, le flooding maintient délibérément la perte à un petit niveau non nul, encourageant le modèle à se stabiliser dans une région large et plate de solutions qui généralise mieux. Ils ont aussi testé de nombreuses astuces courantes d’augmentation de données, telles que des changements de couleur et le flou. Les altérations qui perturbaient l’information de texture nuisaient généralement aux performances, tandis que celles qui perturbaient la forme — comme les retournements horizontaux et des recadrages aléatoires soigneusement réglés — aidaient le modèle à ignorer les indices trompeurs du contour.
Ce que cela signifie pour l’archéologie et l’IA
Avec cette combinaison d’entraînement contrastif, de Triplet-center loss et de flooding, le système a atteint 97,3 % de précision sur le jeu de données de poteries Hemudu, surpassant plusieurs modèles de reconnaissance d’images bien connus. La méthode a également amélioré les performances sur une référence distincte où les types d’objets apparaissent sur des arrière-plans nouveaux et inconnus, ce qui suggère qu’elle peut aider de nombreux systèmes de vision à résister aux corrélations fallacieuses. Pour les archéologues, de tels outils promettent un tri plus rapide et plus cohérent de vastes collections de tessons, libérant les spécialistes pour qu’ils se concentrent sur l’interprétation plutôt que sur l’étiquetage répétitif. Pour le lecteur non spécialiste, la conclusion est simple : en forçant l’IA à ignorer des raccourcis pratiques mais peu fiables — comme le contour irrégulier d’un pot cassé — nous pouvons construire des systèmes qui voient le monde d’une manière plus proche de la compréhension des experts humains.
Citation: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3
Mots-clés: Poterie Hemudu, apprentissage contrastif, corrélations fallacieuses, imagerie archéologique, classification d'images