Clear Sky Science · pt
Mitigando características espúrias por aprendizado contrastivo no reconhecimento de fragmentos de cerâmica
Por que potes quebrados importam para a ciência moderna
À primeira vista, pilhas de cerâmica quebrada de uma vila de 7.000 anos no sul da China parecem distantes da inteligência artificial contemporânea. Ainda assim, esses fragmentos são essenciais para entender como viviam os povos neolíticos — e ao mesmo tempo expõem uma fragilidade oculta nos sistemas atuais de reconhecimento de imagens. Este estudo usa aprendizado de máquina avançado para classificar fragmentos da cerâmica Hemudu por tipo, ao mesmo tempo em que enfrenta um problema que afeta muitos sistemas de IA: a tendência de agarrar “atalhos” visuais enganosos em vez das pistas realmente significativas.

Potes antigos e suas histórias ocultas
O sítio arqueológico Hemudu produziu cerca de 400.000 fragmentos de cerâmica, um tesouro para reconstruir a vida cotidiana, a tecnologia e o comércio no Neolítico do sul da China. Dois tipos principais de cerâmica dominam o sítio. A cerâmica temperada com areia contém areia e cascalho, tornando-a densa, dura e resistente ao calor. A cerâmica temperada com carvão mistura material vegetal queimado, deixando minúsculos poros e vestígios semelhantes a cinza que tornam os vasos mais leves e mais lisos. Os arqueólogos classificam esses tipos principalmente pela textura da superfície e pela composição do material, não pelo contorno irregular de cada fragmento quebrado. Automatizar essa classificação poderia poupar enormes quantidades de tempo de especialista, mas somente se o computador se concentrar nas mesmas pistas em que os especialistas confiam.
Quando a IA aprende a lição errada
Os pesquisadores construíram uma coleção de imagens cuidadosamente controlada no local de escavação, fotografando 1.864 fragmentos em uma tenda à prova de luz, com iluminação constante e fundos brancos. Surpreendentemente, experimentos iniciais revelaram que uma rede profunda padrão podia classificar bem a cerâmica usando apenas as formas dos fragmentos, alcançando alta precisão em imagens binarizadas contendo apenas o contorno. Em contraste, quando os pesquisadores recortaram as bordas e mantiveram apenas a textura da superfície interna, a precisão caiu. Isso significava que o modelo havia descoberto um atalho fácil, porém pouco confiável: as formas específicas das quebras, que os arqueólogos consideram acidentes aleatórios de fratura, não marcadores confiáveis do tipo de cerâmica. Em termos de aprendizado de máquina, a forma do fragmento estava atuando como uma “característica espúria” — um padrão que se correlaciona com o rótulo no conjunto de dados, mas não está realmente ligado à categoria subjacente.
Ensinando o modelo a ignorar o atalho
Para direcionar o sistema a pistas mais significativas, a equipe projetou uma estratégia de treinamento baseada em aprendizado contrastivo, uma técnica que ensina ao modelo quais imagens devem ser consideradas “semelhantes” ou “diferentes”. Para cada foto de cerâmica, eles criaram uma versão recortada aleatoriamente de modo que grande parte do contorno desaparecesse enquanto a superfície interna permanecia. Ambas as imagens foram passadas pela mesma rede extratora de características, e o processo de treinamento forçou suas representações internas a se aproximarem. Ao mesmo tempo, imagens de diferentes tipos de cerâmica foram afastadas nesse espaço de características. Uma função de perda especializada, chamada “Triplet-center”, apertou os agrupamentos de fragmentos da mesma classe e separou os agrupamentos de peças temperadas com areia e com carvão, mesmo quando suas texturas pareciam bastante semelhantes a olho nu.

Tornando o aprendizado mais estável e confiável
Depois de moldar esse espaço de características, os pesquisadores o congelaram e treinaram um classificador simples sobre ele. Para evitar o conhecido risco de overfitting — ir muito bem nos dados de treinamento e falhar em novas amostras — eles usaram uma técnica chamada flooding. Em vez de reduzir o erro de treinamento até zero, o flooding mantém deliberadamente a perda em um nível pequeno e diferente de zero, incentivando o modelo a se acomodar em uma região ampla e plana de soluções que tende a generalizar melhor. Eles também testaram muitas técnicas comuns de aumento de dados, como mudanças de cor e borrão. Alterações que perturbavam a informação de textura geralmente prejudicavam o desempenho, enquanto aquelas que prejudicavam a forma — como flips horizontais e recortes aleatórios calibrados — ajudavam o modelo a ignorar as pistas de contorno enganosas.
O que isso significa para a arqueologia e a IA
Com essa combinação de treinamento contrastivo, perda Triplet-center e flooding, o sistema alcançou 97,3% de acurácia no conjunto de dados de cerâmica Hemudu, superando vários modelos de reconhecimento de imagem bem conhecidos. O método também melhorou o desempenho em um benchmark separado onde os tipos de objeto aparecem em novos fundos desconhecidos, sugerindo que pode ajudar muitos sistemas de visão a resistir a correlações espúrias. Para os arqueólogos, tais ferramentas prometem uma triagem mais rápida e consistente de vastas coleções de fragmentos, liberando especialistas para se concentrarem na interpretação em vez de rotulagem repetitiva. Para o leitor leigo, a conclusão é clara: ao forçar a IA a olhar além de atalhos convenientes, porém pouco confiáveis — como o contorno irregular de um pote quebrado — podemos construir sistemas que enxergam o mundo de maneira mais próxima à compreensão dos especialistas humanos.
Citação: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3
Palavras-chave: cerâmica Hemudu, aprendizado contrastivo, correlações espúrias, imagens arqueológicas, classificação de imagens