Clear Sky Science · nl

Vermindering van misleidende kenmerken door contrastief leren bij herkenning van potscherf

· Terug naar het overzicht

Waarom gebroken potten belangrijk zijn voor de moderne wetenschap

Op het eerste gezicht lijken stapels gebroken aardewerk uit een 7.000 jaar oud dorp in Zuid-China ver verwijderd van moderne kunstmatige intelligentie. Toch vormen deze fragmenten een sleutel tot het begrijpen van het leven van neolithische mensen — en ze leggen ook een verborgen zwakte bloot in hedendaagse beeldherkenningssystemen. Deze studie gebruikt geavanceerd machine learning om oude Hemudu-potscherven in typen te sorteren, terwijl ze een probleem aanpakken dat veel AI-systemen treft: de neiging om zich vast te klampen aan misleidende visuele "snelle oplossingen" in plaats van aan echt betekenisvolle aanwijzingen.

Figure 1
Figure 1.

Oude potten en hun verborgen verhalen

De Hemudu-opgraving heeft ongeveer 400.000 potscherven opgeleverd, een schat aan materiaal voor het reconstrueren van dagelijks leven, technologie en handel in het neolithische zuidelijke China. Twee hoofdtypen aardewerk domineren de site. Zand-gecompenseerd (sand-tempered) aardewerk is volgestopt met zand en grind, waardoor het dicht, hard en hittebestendig is. Houtskool-gecompenseerd (charcoal-tempered) aardewerk bevat verbrand plantaardig materiaal, wat kleine poriën en asachtige sporen achterlaat en de gebakken voorwerpen lichter en gladder maakt. Archeologen classificeren deze typen voornamelijk op basis van oppervlaktetextuur en materiaalopbouw, niet op de onregelmatige omtrek van elk gebroken stuk. Het automatiseren van deze classificatie kan enorme hoeveelheden expertswerk besparen, maar alleen als de computer zich op dezelfde aanwijzingen richt die specialisten vertrouwen.

Wanneer AI de verkeerde les leert

De onderzoekers bouwden een zorgvuldig gecontroleerde beeldverzameling bij de opgraving en fotografeerden 1.864 scherven in een lichtdichte tent met constante verlichting en witte achtergronden. Verrassend genoeg toonden vroege experimenten dat een standaard diep neuraal netwerk het aardewerk redelijk goed kon classificeren door alleen de vormen van de fragmenten te gebruiken, en hoge nauwkeurigheid behaalde op gebinariseerde, alleen-omtrek beelden. Ter vergelijking, toen de onderzoekers de randen wegcropten en alleen de binnenste oppervlaktetextuur hielden, daalde de nauwkeurigheid. Dit betekende dat het model een gemakkelijke maar onbetrouwbare shortcut had ontdekt: de specifieke gebroken vormen, die archeologen zien als toevallige breukpatronen, niet als betrouwbare merkers van aardewerktype. In termen van machine learning fungeerde de fragmentvorm als een "misleidend kenmerk" — een patroon dat correleert met het label in de dataset maar niet echt verbonden is met de onderliggende categorie.

Het model leren voorbij de shortcut te kijken

Om het systeem naar meer betekenisvolle aanwijzingen te sturen, ontwierp het team een trainingsstrategie gebaseerd op contrastief leren, een techniek die een model leert welke afbeeldingen als "vergelijkbaar" of "verschillend" beschouwd moeten worden. Voor elke potfoto maakten ze een versie die willekeurig werd bijgesneden zodat een groot deel van de omtrek verdween terwijl het interne oppervlak bleef. Beide afbeeldingen werden door hetzelfde feature-extractienetwerk gehaald, en het trainingsproces dwong hun interne representaties dichter naar elkaar toe te bewegen. Tegelijkertijd werden afbeeldingen van verschillende aardewerktypen verder uit elkaar geduwd in deze features-ruimte. Een gespecialiseerde "Triplet-center" verliesfunctie versmolt clusters van scherven uit dezelfde klasse en scheidde de clusters van zand-gecompenseerde en houtskool-gecompenseerde stukken, zelfs wanneer hun texturen voor het blote oog erg op elkaar leken.

Figure 2
Figure 2.

Leren stabieler en betrouwbaarder maken

Nadat ze deze features-ruimte hadden gevormd, froren de onderzoekers deze in en trainden ze een eenvoudige classifier erbovenop. Om de bekende valkuil van overfitting te vermijden — zeer goed presteren op trainingsdata maar falen op nieuwe monsters — gebruikten ze een techniek genaamd flooding. In plaats van de trainingsfout helemaal tot nul te drijven, houdt flooding het verlies opzettelijk op een klein, niet-nul niveau, waardoor het model wordt aangemoedigd zich in een brede, vlakke regio van oplossingen te vestigen die doorgaans beter generaliseert. Ze testten ook veelgebruikte data-augmentatietrucs, zoals kleurveranderingen en vervaging. Aanpassingen die textuurinformatie verstoorden schaadden over het algemeen de prestaties, terwijl wijzigingen die de vorm verstoorden — zoals horizontale flips en zorgvuldig afgestemde willekeurige crops — het model hielpen de misleidende omtreksporen te negeren.

Wat dit betekent voor archeologie en AI

Met deze combinatie van contrastieve training, Triplet-center verlies en flooding behaalde het systeem 97,3% nauwkeurigheid op de Hemudu-aardewerkdataset, waarmee het een aantal bekende beeldherkenningsmodellen overtrof. De methode verbeterde ook de prestaties op een afzonderlijke benchmark waarin objecttypen in nieuwe, onbekende achtergronden verschenen, wat suggereert dat het veel visiesystemen kan helpen resistent te worden tegen misleidende correlaties. Voor archeologen beloven dergelijke hulpmiddelen snellere, consistentere sortering van enorme schervenverzamelingen, waardoor experts zich kunnen concentreren op interpretatie in plaats van repetitief labelwerk. Voor een algemeen publiek is de conclusie duidelijk: door AI te dwingen voorbij gemakkelijke maar onbetrouwbare shortcuts te kijken — zoals de gekartelde omtrek van een gebroken pot — kunnen we systemen bouwen die de wereld op manieren zien die dichter bij de interpretatie van menselijke experts liggen.

Bronvermelding: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3

Trefwoorden: Hemudu-aardewerk, contrastief leren, misleidende correlaties, archeologische beeldvorming, beeldclassificatie