Clear Sky Science · es

Mitigar características espurias mediante aprendizaje contrastivo en el reconocimiento de fragmentos de cerámica

· Volver al índice

Por qué las vasijas rotas importan para la ciencia moderna

A primera vista, montones de cerámica rota de una aldea de hace 7.000 años en el sur de China parecen estar muy alejados de la inteligencia artificial moderna. Sin embargo, estos fragmentos son clave para entender cómo vivían los pobladores neolíticos, y además ponen al descubierto una debilidad oculta en los sistemas actuales de reconocimiento de imágenes. Este estudio emplea aprendizaje automático avanzado para clasificar fragmentos de cerámica Hemudu en tipos, abordando a la vez un problema que afecta a muchos sistemas de IA: la tendencia a aferrarse a “atajos” visuales engañosos en lugar de a las pistas realmente significativas.

Figure 1
Figure 1.

Vasijas antiguas y sus historias ocultas

El yacimiento arqueológico de Hemudu ha proporcionado alrededor de 400.000 fragmentos de cerámica, un tesoro para reconstruir la vida cotidiana, la tecnología y el comercio en el sur de China durante el Neolítico. En el sitio predominan dos tipos principales de cerámica. La cerámica templada con arena está llena de arena y grava, lo que la hace densa, dura y resistente al calor. La cerámica templada con carbón mezcla material vegetal quemado, dejando pequeños poros y rastros semejantes a ceniza que hacen las piezas más ligeras y lisas. Los arqueólogos clasifican estos tipos principalmente por la textura de la superficie y la composición del material, no por el contorno irregular de cada fragmento roto. Automatizar esta clasificación podría ahorrar enormes cantidades de tiempo experto, pero solo si el ordenador se fija en las mismas pistas que los especialistas consideran fiables.

Cuando la IA aprende la lección equivocada

Los investigadores construyeron una colección de imágenes cuidadosamente controlada en el yacimiento, fotografiando 1.864 fragmentos en una tienda opaca con iluminación constante y fondos blancos. Sorprendentemente, los experimentos iniciales revelaron que una red profunda estándar podía clasificar la cerámica bastante bien usando solo las formas de los fragmentos, alcanzando alta precisión con imágenes binarizadas y sólo del contorno. En contraste, cuando los investigadores recortaron los bordes y conservaron únicamente la textura de la superficie interna, la precisión cayó. Esto significaba que el modelo había descubierto un atajo fácil pero poco fiable: las formas de quiebre específicas, que los arqueólogos consideran accidentes aleatorios de la rotura y no marcadores fiables del tipo de cerámica. En términos de aprendizaje automático, la forma del fragmento actuaba como una “característica espuria”: un patrón que se correlaciona con la etiqueta en el conjunto de datos pero que no está realmente vinculado a la categoría subyacente.

Enseñar al modelo a mirar más allá del atajo

Para orientar el sistema hacia pistas más significativas, el equipo diseñó una estrategia de entrenamiento basada en aprendizaje contrastivo, una técnica que enseña a un modelo qué imágenes deben considerarse “similares” o “diferentes”. Para cada foto de cerámica, crearon una versión recortada aleatoriamente de modo que gran parte del contorno desapareciera mientras la superficie interna permanecía. Ambas imágenes se pasaron por la misma red extractora de características, y el proceso de entrenamiento forzó a que sus representaciones internas se acercaran entre sí. Al mismo tiempo, las imágenes de distintos tipos de cerámica se empujaron a separarse en ese espacio de características. Una función de pérdida especializada llamada “Triplet-center” apretó los grupos de fragmentos de la misma clase y separó los grupos de piezas templadas con arena y con carbón, incluso cuando sus texturas parecían bastante parecidas a simple vista.

Figure 2
Figure 2.

Hacer el aprendizaje más estable y fiable

Tras moldear este espacio de características, los investigadores lo congelaron y entrenaron un clasificador simple sobre él. Para evitar la trampa habitual del sobreajuste —tener un rendimiento excelente en los datos de entrenamiento pero fallar con muestras nuevas— aplicaron una técnica llamada flooding. En lugar de llevar el error de entrenamiento hasta cero, flooding mantiene deliberadamente la pérdida en un pequeño nivel no nulo, animando al modelo a asentarse en una región amplia y plana de soluciones que tiende a generalizar mejor. También probaron muchas técnicas comunes de aumento de datos, como cambios de color y desenfoque. Las alteraciones que perturbaban la información de textura generalmente perjudicaban el rendimiento, mientras que las que alteraban la forma —como volteos horizontales y recortes aleatorios cuidadosamente ajustados— ayudaron al modelo a ignorar las señales engañosas del contorno.

Qué significa esto para la arqueología y la IA

Con esta combinación de entrenamiento contrastivo, pérdida Triplet-center y flooding, el sistema alcanzó un 97,3% de precisión en el conjunto de datos de cerámica Hemudu, superando a varios modelos conocidos de reconocimiento de imágenes. El método también mejoró el rendimiento en un banco de pruebas separado donde los tipos de objeto aparecen en fondos nuevos y desconocidos, lo que sugiere que puede ayudar a muchos sistemas de visión a resistir correlaciones espurias. Para los arqueólogos, estas herramientas prometen una clasificación más rápida y consistente de vastas colecciones de fragmentos, liberando a los expertos para centrarse en la interpretación en lugar del etiquetado repetitivo. Para el lector general, la conclusión es clara: al obligar a la IA a mirar más allá de atajos convenientes pero poco fiables —como el contorno irregular de una vasija rota— podemos construir sistemas que perciban el mundo de manera más cercana a cómo lo entienden los expertos humanos.

Cita: Yu, X., Li, T., Song, Z. et al. Mitigating spurious features by contrastive learning in pottery sherd recognition. npj Herit. Sci. 14, 135 (2026). https://doi.org/10.1038/s40494-025-02170-3

Palabras clave: Cerámica Hemudu, aprendizaje contrastivo, correlaciones espurias, imágenes arqueológicas, clasificación de imágenes