Clear Sky Science · it
Mitigare caratteristiche spurie con l’apprendimento contrastivo nel riconoscimento delle schegge di ceramica
Perché le pentole rotte contano per la scienza moderna
A prima vista, mucchi di frammenti di ceramica di un villaggio di 7.000 anni nel sud della Cina sembrano lontani dall’intelligenza artificiale odierna. Eppure questi reperti sono la chiave per comprendere la vita neolitica — e rivelano anche una debolezza nascosta nei sistemi di riconoscimento delle immagini contemporanei. Questo studio utilizza tecniche avanzate di machine learning per classificare le schegge di ceramica Hemudu in tipologie, affrontando al contempo un problema che colpisce molti sistemi di IA: la tendenza ad affidarsi a scorciatoie visive fuorvianti invece che agli indizi davvero significativi.

Vasi antichi e le loro storie nascoste
Il sito archeologico di Hemudu ha fornito circa 400.000 frammenti di ceramica, un tesoro per ricostruire la vita quotidiana, le tecnologie e gli scambi nel Neolitico della Cina meridionale. Due tipi principali di ceramica dominano il sito. La ceramica temperata con sabbia è ricca di sabbia e ghiaia, rendendola densa, dura e resistente al calore. La ceramica temperata con carbone mescola materiale vegetale bruciato, lasciando piccole porosità e tracce analoghe alla cenere che rendono i vasi più leggeri e dalla superficie più liscia. Gli archeologi classificano questi tipi principalmente in base alla texture superficiale e alla composizione materiale, non in base al profilo irregolare di ciascun frammento. Automatizzare questa classificazione potrebbe risparmiare enormi quantità di tempo degli esperti, ma solo se il computer si concentra sugli stessi indizi cui si affidano gli specialisti.
Quando l’IA impara la lezione sbagliata
I ricercatori hanno costruito una raccolta di immagini attentamente controllata direttamente in sito, fotografando 1.864 schegge in una tenda oscurata con illuminazione costante e sfondi bianchi. Sorprendentemente, esperimenti iniziali hanno rivelato che una rete profonda standard riusciva a classificare la ceramica abbastanza bene utilizzando soltanto le forme dei frammenti, ottenendo alta accuratezza su immagini binarizzate contenenti solo il contorno. Al contrario, quando i ricercatori ritagliavano via i bordi mantenendo solo la texture interna della superficie, l’accuratezza calava. Ciò significava che il modello aveva scoperto una scorciatoia facile ma inaffidabile: le forme di rottura specifiche, che gli archeologi considerano incidenti casuali di frattura e non indicatori affidabili del tipo di ceramica. In termini di machine learning, la forma del frammento agiva come una “caratteristica spuria” — un pattern che si correla con l’etichetta nel dataset ma non è veramente legato alla categoria sottostante.
Insegnare al modello a guardare oltre la scorciatoia
Per spingere il sistema verso indizi più significativi, il team ha progettato una strategia di addestramento basata sull’apprendimento contrastivo, una tecnica che insegna a un modello quali immagini devono essere considerate “simili” o “diverse”. Per ogni foto di ceramica hanno creato una versione ritagliata a caso in modo che gran parte del contorno scomparisse mentre rimaneva la superficie interna. Entrambe le immagini venivano passate attraverso la stessa rete estrattrice di caratteristiche e il processo di addestramento forzava le loro rappresentazioni interne ad avvicinarsi. Allo stesso tempo, immagini di differenti tipi di ceramica venivano spinte più lontano in questo spazio delle caratteristiche. Una funzione di perdita specializzata, il “Triplet-center” loss, ha compattato i cluster delle schegge appartenenti alla stessa classe e separato i cluster di pezzi temperati con sabbia e con carbone, anche quando le loro texture sembravano molto simili a occhio nudo.

Rendere l’apprendimento più stabile e affidabile
Dopo aver plasmato questo spazio delle caratteristiche, i ricercatori lo hanno congelato e hanno addestrato un classificatore semplice in cima ad esso. Per evitare la nota insidia dell’overfitting — fare molto bene sui dati di addestramento ma fallire su campioni nuovi — hanno usato una tecnica chiamata flooding. Invece di portare l’errore di addestramento fino a zero, il flooding mantiene deliberatamente la perdita a un piccolo valore non nullo, incoraggiando il modello a stabilizzarsi in una regione ampia e piatta di soluzioni che tende a generalizzare meglio. Hanno anche testato molte comuni tecniche di data augmentation, come variazioni di colore e sfocature. Le alterazioni che disturbavano le informazioni di texture generalmente peggioravano le prestazioni, mentre quelle che disturbavano la forma — come ribaltamenti orizzontali e ritagli casuali finemente calibrati — aiutavano il modello a ignorare gli indizi fuorvianti del contorno.
Cosa significa per l’archeologia e per l’IA
Con questa combinazione di addestramento contrastivo, Triplet-center loss e flooding, il sistema ha raggiunto il 97,3% di accuratezza sul dataset della ceramica Hemudu, superando diversi noti modelli di riconoscimento delle immagini. Il metodo ha anche migliorato le prestazioni su un benchmark separato in cui i tipi di oggetto compaiono su sfondi nuovi e non familiari, suggerendo che può aiutare molti sistemi visivi a resistere alle correlazioni spurie. Per gli archeologi, tali strumenti promettono una classificazione più rapida e coerente di vaste collezioni di schegge, liberando gli esperti per concentrarsi sull’interpretazione invece che sull’etichettatura ripetitiva. Per il lettore non specialista, la conclusione è chiara: costringendo l’IA a guardare oltre scorciatoie comode ma inaffidabili — come il profilo frastagliato di un vaso rotto — possiamo costruire sistemi che vedono il mondo in modi più vicini a come gli esperti umani lo comprendono.
Citazione: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3
Parole chiave: Ceramica Hemudu, apprendimento contrastivo, correlazioni spurie, imaging archeologico, classificazione delle immagini