Clear Sky Science · es

Impacto de la estrategia de ampliación del espacio de datos en la precisión y generalización del modelo en la clasificación de láminas delgadas de roca

2026-03-17 · Volver al índice

Por qué importan mejores imágenes de roca

En lo profundo del subsuelo, la manera en que se organizan las rocas controla dónde pueden fluir o almacenarse el agua, el petróleo, el gas e incluso el dióxido de carbono. Los geólogos estudian rebanadas ultrafinas de roca al microscopio para leer esa arquitectura oculta. Cada vez más, se entrena a ordenadores para que reconozcan tipos de roca a partir de esas imágenes. Este artículo plantea una pregunta aparentemente simple con grandes consecuencias prácticas: cuando ampliamos artificialmente estas colecciones de imágenes mediante “aumento de datos”, ¿hacemos realmente más inteligente al ordenador, o a veces lo empeoramos?

Enseñando a los ordenadores con pocas fotos de roca

Entrenar un sistema de reconocimiento de imágenes suele requerir miles de ejemplos. En geología, recopilar tantísimas imágenes microscópicas es lento y costoso: las muestras deben perforarse, cortarse, pulirse y fotografiarse, y muchos conjuntos de datos se mantienen confidenciales por parte de empresas. Los autores trabajaron con una colección realista de 34.775 imágenes microscópicas de láminas delgadas de roca, divididas en 36 categorías como arenisca, caliza y basalto. También definieron una versión de “datos limitados” con solo 100 imágenes de entrenamiento y 50 de validación por clase para imitar la situación común de escasez de datos.

Estirando los datos sin romper las rocas

Para compensar la falta de imágenes, los investigadores a menudo crean copias modificadas de los originales —volteos, desplazamientos, rotaciones, zooms o mezclas de imágenes— para ayudar al modelo a ignorar diferencias irrelevantes. Este estudio comparó dos formas generales de hacerlo. En el aumento estático, se crean y guardan imágenes adicionales antes del entrenamiento, agrandando permanentemente el conjunto de datos. En el aumento dinámico, el ordenador genera transformaciones aleatorias en tiempo de entrenamiento, de modo que cada pasada puede ver una versión ligeramente distinta de la misma roca. El equipo exploró 133 configuraciones de transformación detalladas —desde volteos suaves hasta zooms y rotaciones extremas, así como técnicas más avanzadas de “mezcla de imágenes” donde dos rocas se combinan matemáticamente o se empalman.

Poniendo a prueba cinco arquitecturas

Los investigadores entrenaron cinco redes neuronales convolucionales diferentes: tres arquitecturas bien conocidas preentrenadas en fotografías cotidianas y dos modelos más sencillos construidos desde cero. En 691 experimentos separados, midieron con qué frecuencia cada modelo clasificaba correctamente las imágenes de validación tras aplicar distintas estrategias de aumento. Sin ningún aumento y con abundantes datos, la mejor red preentrenada ya alcanzaba alrededor del 98–99% de precisión. Con el conjunto de entrenamiento reducido, la precisión cayó, lo que hacía que el aumento fuera potencialmente valioso —pero los resultados mostraron que no todos los datos extra son útiles.

Cuando más variedad perjudica en vez de ayudar

El hallazgo más llamativo es que el aumento es una espada de doble filo. Muchos trucos geométricos comúnmente usados, especialmente zooms intensos y grandes rotaciones, redujeron en realidad la precisión, a veces de forma drástica, cuando se aplicaron dinámicamente durante el entrenamiento. Estas operaciones pueden estirar o difuminar los granos minerales y las texturas diminutas que contienen información geológica esencial, enseñando efectivamente al modelo a fijarse en patrones que no existen en muestras reales. El aumento estático, donde las imágenes transformadas son fijas y se reutilizan de manera consistente, condujo en general a resultados más estables y a veces mejores. Los volteos simples y los desplazamientos pequeños tendieron a ser seguros, pero las transformaciones agresivas fueron arriesgadas salvo que se controlaran con cuidado.

Mezclar imágenes para mejorar la generalización

Los métodos más prometedores fueron las técnicas lineales y no lineales de mezcla de imágenes, que combinan dos imágenes de roca para crear un nuevo ejemplo de entrenamiento. Variantes que promediaban, azulejaban o fusionaban imágenes píxel a píxel conservaron o mejoraron consistentemente la precisión, especialmente para el conjunto de datos más pequeño. Un modelo entrenado con tales imágenes mixtas estáticas generalizó mejor a datos no vistos previamente, incluidas imágenes sintéticas de roca generadas por otro sistema de IA y rocas reales procesadas de formas poco habituales, como con el fondo eliminado o con distorsiones complejas. De forma notable, este modelo aumentado, entrenado con muchas menos imágenes originales, a veces superó a un modelo mucho mayor entrenado con el conjunto completo sin aumento.

Qué significa esto para la IA geológica futura

Para los no especialistas, el mensaje clave es que “más datos” creados mediante trucos simples de imagen no hacen automáticamente que un sistema de IA sea más fiable. En las texturas delicadas de las rocas microscópicas, ciertas distorsiones pueden borrar precisamente las características que interesan a los geólogos. Este estudio muestra que un aumento estático cuidadosamente escogido y una mezcla de imágenes bien diseñada pueden compensar en parte la escasez de datos y mejorar la capacidad de los modelos para manejar imágenes nuevas y desconocidas. Al mismo tiempo, el uso acrítico de transformaciones dinámicas agresivas puede erosionar silenciosamente la precisión. En otras palabras, para la clasificación automática de rocas —y probablemente para muchas tareas de imágenes científicas— la forma en que inventamos nuevas imágenes de entrenamiento importa tanto como la cantidad que tengamos.

Cita: Habrat, M., Młynarczuk, M. Impact of data space augmentation strategy on model accuracy and generalization in thin-section rock classification. Sci Rep 16, 13927 (2026). https://doi.org/10.1038/s41598-026-44320-y

Palabras clave: microscopía de rocas, aumento de datos, IA en geología, clasificación de imágenes, láminas delgadas