Clear Sky Science · pt

Impacto da estratégia de aumento do espaço de dados na acurácia e generalização de modelos na classificação de seções delgadas de rocha

· Voltar ao índice

Por que imagens de rochas mais inteligentes importam

Em profundidade subterrânea, a forma como as rochas são constituídas controla onde água, petróleo, gás e até dióxido de carbono podem fluir ou ser armazenados. Geólogos estudam lâminas delgadas de rocha ao microscópio para ler essa arquitetura oculta. Cada vez mais, computadores estão sendo treinados para reconhecer tipos de rocha a partir dessas imagens. Este artigo faz uma pergunta aparentemente simples, com grandes consequências práticas: quando ampliamos artificialmente essas coleções de imagens por meio de “aumento de dados”, estamos realmente tornando o computador mais inteligente — ou às vezes podemos torná‑lo pior?

Figure 1
Figure 1.

Ensinando computadores com fotos de rochas limitadas

Treinar um sistema de reconhecimento de imagens normalmente requer milhares de exemplos. Na geologia, coletar tantas imagens microscópicas é demorado e caro: as amostras precisam ser perfuradas, cortadas, polidas e fotografadas, e muitos conjuntos de dados são mantidos confidenciais por empresas. Os autores trabalharam com uma coleção realista de 34.775 imagens de microscópio de lâminas delgadas de rocha, divididas em 36 categorias, como arenito, calcário e basalto. Eles também definiram uma versão menor de “dados limitados” com apenas 100 imagens de treinamento e 50 de validação por classe para imitar a situação comum em que os dados são escassos.

Esticando os dados sem danificar as rochas

Para compensar a escassez de imagens, pesquisadores costumam criar cópias modificadas dos originais — invertendo, deslocando, girando, ampliando ou misturando imagens — para ajudar um modelo a aprender a ignorar diferenças irrelevantes. Este estudo comparou duas formas gerais de fazer isso. No aumento estático, imagens extras são criadas e salvas antes do treinamento, ampliando permanentemente o conjunto de dados. No aumento dinâmico, o computador gera transformações aleatórias durante o treinamento, de modo que cada passagem pode ver uma versão ligeiramente diferente da mesma rocha. A equipe explorou 133 configurações detalhadas de transformação — variando de espelhamentos suaves a ampliações e rotações extremas, assim como técnicas mais avançadas de “mistura de imagens” onde duas rochas são matematicamente combinadas ou recortadas uma na outra.

Figure 2
Figure 2.

Testando cinco redes neurais

Os pesquisadores treinaram cinco redes neurais convolucionais diferentes: três arquiteturas conhecidas pré‑treinadas em fotografias do cotidiano e duas modelos mais simples construídos do zero. Em 691 experimentos separados, mediram com que frequência cada modelo classificou corretamente imagens de validação após usar diferentes estratégias de aumento. Sem qualquer aumento e com muitos dados, a melhor rede pré‑treinada já alcançava cerca de 98–99% de acurácia. Com o conjunto de treinamento menor, a acurácia caiu, tornando o aumento potencialmente valioso — mas os resultados mostraram que nem todos os dados extras são úteis.

Quando mais variedade atrapalha em vez de ajudar

A descoberta mais marcante é que o aumento é uma espada de dois gumes. Muitos truques geométricos comumente usados, especialmente ampliações fortes e grandes rotações, na verdade reduziram a acurácia, por vezes drasticamente, quando aplicados de forma dinâmica durante o treinamento. Essas operações podem esticar ou borrar os grãos minerais e as texturas minúsculas que carregam informação geológica essencial, ensinando o modelo a prestar atenção a padrões que não existem em amostras reais. O aumento estático, em que as imagens transformadas são fixas e reaproveitadas de forma consistente, geralmente levou a resultados mais estáveis e por vezes melhores. Espelhamentos simples e pequenos deslocamentos tenderam a ser seguros, mas transformações agressivas foram arriscadas a menos que cuidadosamente controladas.

Misturar imagens para melhorar a generalização

Os métodos mais promissores foram técnicas lineares e não lineares de mistura de imagens, que combinam duas imagens de rocha para criar um novo exemplo de treinamento. Variantes que faziam média, telhamento ou mesclagem pixel a pixel preservaram ou melhoraram consistentemente a acurácia, especialmente para o conjunto de dados menor. Um modelo treinado com essas imagens mistas estáticas generalizou melhor para dados previamente não vistos, incluindo imagens sintéticas de rochas geradas por outro sistema de IA e rochas reais processadas de maneiras não usuais, como com o fundo removido ou com distorções complexas. Notavelmente, esse modelo aumentado, treinado com muito menos imagens originais, por vezes superou um modelo muito maior treinado no conjunto completo sem aumento.

O que isso significa para a IA geológica futura

Para não especialistas, a mensagem principal é que “mais dados” criados por truques simples de imagem não tornam automaticamente um sistema de IA mais confiável. Nas texturas delicadas das rochas microscópicas, certas distorções podem apagar justamente os recursos que os geólogos valorizam. Este estudo mostra que aumento estático cuidadosamente escolhido e mistura de imagens bem pensada podem compensar em parte a escassez de dados e melhorar o desempenho dos modelos em imagens novas e desconhecidas. Ao mesmo tempo, o uso acrítico de transformações dinâmicas agressivas pode corroer a acurácia de forma silenciosa. Em outras palavras, para classificação automatizada de rochas — e provavelmente para muitas tarefas de imagem científica — a maneira como inventamos novas imagens de treinamento importa tanto quanto a quantidade que temos.

Citação: Habrat, M., Młynarczuk, M. Impact of data space augmentation strategy on model accuracy and generalization in thin-section rock classification. Sci Rep 16, 13927 (2026). https://doi.org/10.1038/s41598-026-44320-y

Palavras-chave: microscopia de rochas, aumento de dados, IA em geologia, classificação de imagens, seções delgadas