Clear Sky Science · pl

Łagodzenie fałszywych cech przez uczenie kontrastowe w rozpoznawaniu fragmentów ceramiki

· Powrót do spisu

Dlaczego połamane naczynia mają znaczenie dla współczesnej nauki

Na pierwszy rzut oka stosy potłuczonej ceramiki z 7‑tysięcznego osiedla w południowych Chinach wydają się odległe od współczesnej sztucznej inteligencji. Tymczasem te fragmenty są kluczem do zrozumienia życia neolitycznych społeczności — a także ujawniają ukrytą słabość współczesnych systemów rozpoznawania obrazów. W badaniu zastosowano zaawansowane metody uczenia maszynowego do sortowania starożytnych fragmentów ceramiki Hemudu według typów, jednocześnie rozwiązując problem, który dotyczy wielu systemów AI: tendencję do chwytania mylących wizualnych „skrótów” zamiast prawdziwie istotnych wskazówek.

Figure 1
Figure 1.

Starożytne naczynia i ich ukryte historie

Na stanowisku Hemudu odnaleziono około 400 000 fragmentów ceramiki — prawdziwe bogactwo do odtwarzania codziennego życia, technologii i handlu w neolitycznych Chinach południowych. Na stanowisku dominują dwa główne rodzaje naczyń. Ceramika z dodatkiem piasku jest wypełniona piaskiem i żwirem, co czyni ją gęstą, twardą i odporną na wysoką temperaturę. Ceramika z domieszką węgla drzewnego zawiera spalone materiały roślinne, pozostawiając maleńkie pory i ślady popiołu, dzięki czemu naczynia są lżejsze i gładsze. Archeolodzy klasyfikują te typy głównie na podstawie tekstury powierzchni i składu materiałowego, a nie nieregularnego obrysu każdego połamka. Zautomatyzowanie tej klasyfikacji mogłoby zaoszczędzić ogromne ilości czasu ekspertów, pod warunkiem że komputer skupi się na tych samych wskazówkach, którym ufają specjaliści.

Kiedy AI uczy się złej lekcji

Naukowcy zbudowali starannie kontrolowaną kolekcję obrazów na stanowisku wykopalisk, fotografując 1 864 fragmenty w namiocie chroniącym przed światłem, przy stałym oświetleniu i białym tle. Ku zaskoczeniu, wczesne eksperymenty wykazały, że standardowa głęboka sieć potrafiła całkiem dobrze klasyfikować ceramikę używając wyłącznie kształtów fragmentów, osiągając wysoką dokładność na binarizowanych obrazach pokazujących tylko kontury. Natomiast po przycięciu krawędzi i zachowaniu jedynie wewnętrznej tekstury powierzchni dokładność spadała. Oznaczało to, że model odkrył łatwy, lecz niewiarygodny skrót: konkretne połamane kształty, które archeolodzy traktują jako losowe skutki złamania, a nie wiarygodne wskaźniki typu ceramiki. W terminologii uczenia maszynowego kształt fragmentu działał jako „fałszywa cecha” — wzorzec, który koreluje z etykietą w zbiorze danych, ale nie jest rzeczywiście powiązany z podstawową kategorią.

Nauczanie modelu, by pomijał skrót

Aby skierować system ku bardziej znaczącym wskazówkom, zespół opracował strategię treningową opartą na uczeniu kontrastowym, technice uczącej model, które obrazy należy uważać za „podobne”, a które za „różne”. Dla każdego zdjęcia ceramiki utworzono wersję z losowym przycięciem, tak by duża część obrysu zniknęła, podczas gdy wewnętrzna powierzchnia pozostała. Oba obrazy przechodzono przez tę samą sieć ekstrakcji cech, a proces treningowy wymuszał zbliżenie ich wewnętrznych reprezentacji. Równocześnie obrazy różnych typów ceramiki odpychano od siebie w tej przestrzeni cech. Specjalizowana funkcja straty „Triplet‑center” ścisnęła klastry fragmentów z tej samej klasy i rozdzieliła klastry ceramiki z piaskiem i z węglem drzewnym, nawet gdy ich tekstury gołym okiem wydawały się dość podobne.

Figure 2
Figure 2.

Uczynienie uczenia stabilniejszym i bardziej wiarygodnym

Po ukształtowaniu tej przestrzeni cech badacze zamrozili ją i wytrenowali prosty klasyfikator na jej wierzchu. Aby uniknąć dobrze znanej pułapki przeuczenia — osiągania znakomitych wyników na danych treningowych, ale słabszych na nowych próbkach — zastosowali technikę zwaną flooding. Zamiast zaniżać błąd treningowy aż do zera, flooding celowo utrzymuje stratę na niewielkim, różnym od zera poziomie, co skłania model do osiadania w szerokich, płaskich obszarach rozwiązań, które zwykle lepiej uogólniają. Testowali też wiele powszechnych zabiegów augmentacji danych, takich jak zmiany kolorów i rozmycie. Modyfikacje zaburzające informacje o teksturze zazwyczaj pogarszały wydajność, natomiast te zakłócające kształt — jak odbicia poziome i starannie dostrojone losowe przycięcia — pomogły modelowi zignorować mylące wskazówki z obrysu.

Co to oznacza dla archeologii i AI

Dzięki połączeniu treningu kontrastowego, stratowi Triplet‑center i floodingu system osiągnął 97,3% dokładności na zbiorze danych ceramiki Hemudu, przewyższając kilka znanych modeli rozpoznawania obrazów. Metoda poprawiła też wydajność na oddzielnym benchmarku, gdzie typy obiektów pojawiają się na nowych, nieznanych tłach, co sugeruje, że może pomóc wielu systemom wizji komputerowej w odporności na fałszywe korelacje. Dla archeologów takie narzędzia oznaczają szybsze, bardziej spójne sortowanie ogromnych kolekcji fragmentów, uwalniając ekspertów do pracy interpretacyjnej zamiast powtarzalnego etykietowania. Dla czytelnika niezaawansowanego w temacie wniosek jest prosty: zmuszając AI do ignorowania wygodnych, lecz zawodnych skrótów — jak poszarpany kontur połamanych naczyń — możemy zbudować systemy widzenia, które postrzegają świat bliżej tego, jak rozumieją go ludzie‑eksperci.

Cytowanie: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3

Słowa kluczowe: Ceramika Hemudu, uczenie kontrastowe, fałszywe korelacje, obrazowanie archeologiczne, klasyfikacja obrazów