Clear Sky Science · de

Reduzierung irreführender Merkmale durch kontrastives Lernen bei der Erkennung von Keramikscherben

· Zurück zur Übersicht

Warum zerbrochene Töpfe für die moderne Wissenschaft wichtig sind

Auf den ersten Blick scheinen Haufen zerbrochener Keramik aus einem 7.000 Jahre alten Dorf in Südchina weit von moderner künstlicher Intelligenz entfernt zu sein. Doch diese Fragmente sind ein Schlüssel zum Verständnis des Lebens der neolithischen Menschen — und sie legen zugleich eine verborgene Schwäche heutiger Bilderkennungssysteme offen. In dieser Studie wird fortgeschrittenes maschinelles Lernen eingesetzt, um antike Hemudu-Keramikscherben nach Typen zu sortieren, und dabei ein Problem anzugehen, das viele KI-Systeme betrifft: die Neigung, sich auf irreführende visuelle "Abkürzungen" zu stützen statt auf wirklich aussagekräftige Hinweise.

Figure 1
Figure 1.

Alte Töpfe und ihre verborgenen Geschichten

Die archäologische Fundstätte Hemudu hat etwa 400.000 Keramikfragmente zutage gefördert — ein Schatz für die Rekonstruktion von Alltagsleben, Technik und Handel im neolithischen Südchina. Zwei Hauptarten von Keramik dominieren den Fundplatz. Sand-reduzierte (sand-tempered) Keramik ist mit Sand und Kies durchsetzt, was sie dicht, hart und hitzebeständig macht. Kohle-reduzierte (charcoal-tempered) Keramik vermischt verbranntes Pflanzenmaterial, hinterlässt feine Poren und ascheähnliche Spuren, wodurch die Gefäße leichter und glatter erscheinen. Archäologen klassifizieren diese Typen hauptsächlich anhand von Oberflächentextur und Materialzusammensetzung, nicht anhand der unregelmäßigen Kontur jedes Bruchstücks. Eine Automatisierung dieser Einordnung könnte enorme Mengen an Expertenzeit sparen — vorausgesetzt, der Computer richtet sein Augenmerk auf dieselben Hinweise, denen Fachleute vertrauen.

Wenn die KI die falsche Lektion lernt

Die Forscher erstellten eine sorgfältig kontrollierte Bildsammlung direkt an der Ausgrabungsstätte, indem sie 1.864 Scherben in einem lichtdichten Zelt mit konstanten Lichtverhältnissen und weißen Hintergründen fotografierten. Überraschenderweise zeigten frühe Experimente, dass ein Standard-Deep-Net die Keramik recht gut allein anhand der Formen der Fragmente klassifizieren konnte und hohe Genauigkeit auf binarisierten, nur die Umrisse zeigenden Bildern erreichte. Im Gegensatz dazu sank die Genauigkeit deutlich, wenn die Ränder weggeschnitten und nur die innere Oberflächentextur erhalten blieb. Das deutete darauf hin, dass das Modell eine einfache, aber unzuverlässige Abkürzung entdeckt hatte: die spezifischen Bruchformen, die Archäologen als zufällige Bruchereignisse betrachten und nicht als verlässliche Marker eines Keramiktyps. In der Sprache des maschinellen Lernens fungierte die Fragmentform als ein "spurious feature" — ein Muster, das im Datensatz mit dem Label korreliert, aber nicht wirklich mit der zugrunde liegenden Kategorie verknüpft ist.

Dem Modell beibringen, über die Abkürzung hinwegzusehen

Um das System auf aussagekräftigere Hinweise zu lenken, entwickelte das Team eine Trainingsstrategie auf Basis von kontrastivem Lernen, einer Technik, die dem Modell beibringt, welche Bilder als "ähnlich" oder "unterschiedlich" zu betrachten sind. Zu jedem Keramikfoto erzeugten sie eine Version, die zufällig beschnitten wurde, sodass ein Großteil des Umrisses verschwand, die innere Oberfläche aber erhalten blieb. Beide Bilder wurden durch dasselbe Merkmalsextraktionsnetz geleitet, und der Trainingsprozess zwang ihre internen Repräsentationen, einander näher zu rücken. Gleichzeitig wurden Bilder verschiedener Keramiktypen im Merkmalsraum weiter voneinander entfernt. Eine spezialisierte "Triplet-center"-Verlustfunktion zog Cluster von Scherben derselben Klasse enger zusammen und trennte die Cluster sand- und kohle-behandelter Stücke, selbst wenn deren Texturen dem bloßen Auge recht ähnlich erschienen.

Figure 2
Figure 2.

Lernen stabiler und verlässlicher machen

Nachdem dieser Merkmalsraum geformt war, froren die Forscher ihn ein und trainierten darauf einen einfachen Klassifikator. Um die vertraute Falle des Overfittings zu vermeiden — also sehr gute Leistung auf Trainingsdaten bei gleichzeitigem Versagen bei neuen Proben — verwendeten sie eine Technik namens Flooding. Anstatt den Trainingsfehler bis auf null zu drücken, hält Flooding den Verlust absichtlich auf einem kleinen, nicht-null Niveau und ermutigt das Modell, sich in einer breiten, flachen Lösungsregion niederzulassen, die tendenziell besser generalisiert. Sie testeten auch viele gängige Datenaugmentierungs-Tricks wie Farbänderungen und Weichzeichnen. Veränderungen, die Texturinformationen störten, schadeten in der Regel der Leistung, während solche, die die Form störten — etwa horizontale Spiegelungen und sorgfältig abgestimmte zufällige Zuschnitte — dem Modell halfen, die irreführenden Konturunterschiede zu ignorieren.

Was das für Archäologie und KI bedeutet

Mit dieser Kombination aus kontrastivem Training, Triplet-center-Verlust und Flooding erreichte das System 97,3 % Genauigkeit auf dem Hemudu-Keramik-Datensatz und übertraf mehrere bekannte Bilderkennungsmodelle. Die Methode verbesserte auch die Leistung auf einem separaten Benchmark, bei dem Objekttypen in neuen, ungewohnten Hintergründen auftauchen, was darauf hindeutet, dass sie vielen Vision-Systemen helfen kann, trügerischen Korrelationen zu widerstehen. Für Archäologen versprechen solche Werkzeuge eine schnellere, konsistentere Sortierung großer Scherbensammlungen und geben Experten die Freiheit, sich auf Interpretation statt auf repetitive Kennzeichnung zu konzentrieren. Für die interessierte Leserschaft ist die Botschaft klar: Indem wir die KI zwingen, über bequeme, aber unzuverlässige Abkürzungen — etwa die gezackte Kontur eines zerbrochenen Topfes — hinwegzusehen, können wir Systeme bauen, die die Welt eher so sehen, wie menschliche Expertinnen und Experten sie verstehen.

Zitation: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3

Schlüsselwörter: Hemudu-Keramik, kontrastives Lernen, trügerische Korrelationen, archäologische Bildgebung, Bildklassifikation