Clear Sky Science · pt

Transformadores de visão - modelo de classificação de trincas superficiais orientado ao consumidor baseado em redes Kolmogorov–Arnold

· Voltar ao índice

Por que as trincas em estruturas do dia a dia importam

Trincas em estradas, pontes e paredes de edifícios podem começar como fissuras finas, mas crescer até se tornarem riscos sérios à segurança e gerar reparos caros. Hoje, a maioria das inspeções ainda depende de pessoas percorrendo locais com pranchetas ou câmeras, o que é lento, custoso e sujeito a erros — especialmente para falhas pequenas ou ocultas. Este artigo apresenta um novo método computacional que detecta e classifica trincas superficiais em concreto e asfalto com altíssima precisão, mantendo eficiência suficiente para rodar em celulares, drones ou outros dispositivos pequenos. Isso abre caminho para monitoramento rotineiro e de baixo custo das estruturas que usamos diariamente.

Das inspeções manuais às câmeras inteligentes

Inspecionar superfícies a olho nu tem desvantagens claras: é subjetivo, consome tempo e às vezes é perigoso para inspetores que trabalham em vias movimentadas ou em pontes altas. Programas antigos tentaram localizar trincas em fotos usando truques simples como detecção de bordas e limiares, mas tiveram dificuldades com sombras, variação de iluminação ou texturas ásperas que podem parecer trincas. Sistemas mais recentes usam aprendizado de máquina, onde algoritmos aprendem padrões a partir de muitas imagens. Redes neurais convolucionais e transformadores de visão já elevaram muito a precisão, porém a maioria ainda tem problemas para lidar com trincas finas e irregulares em condições do mundo real e raramente explica como chegou às suas decisões.

Figure 1
Figura 1.

Um modelo híbrido de IA que enxerga com mais clareza

Os autores projetaram um modelo híbrido de aprendizado profundo que combina várias vantagens em um único fluxo. Primeiro, uma rede compacta chamada MobileNet V3 analisa a imagem e extrai detalhes locais, como bordas, microfissuras e textura. Em seguida, um modelo transformer chamado LeViT examina como diferentes partes da imagem se relacionam, capturando padrões de longo alcance — por exemplo, como uma trinca fina serpenteia por uma laje. Um terceiro componente, um transformer Linformer aprimorado, foca em modelar eficientemente essas relações de longo alcance mesmo em imagens de alta resolução, mas com menor custo computacional, o que o torna prático para dispositivos pequenos.

Misturando sinais e tomando a decisão final

Em vez de simplesmente empilhar esses componentes, o sistema usa um passo de “fusão de características com portões” que aprende quais pedaços de informação de cada rede realmente importam e quais são redundantes. Isso ajuda o modelo a preservar pistas úteis sobre largura, comprimento e continuidade da trinca, enquanto ignora padrões de fundo distrativos. O sinal fundido é então passado para uma Rede Kolmogorov–Arnold, um tipo especial de rede neural que representa relações complexas usando curvas matemáticas flexíveis. Esse classificador é ajustado para traçar uma fronteira nítida entre casos “trinca” e “sem trinca”, mesmo quando os padrões nos dados são sutis ou bagunçados, mantendo-se rápido e compacto o suficiente para uso em tempo real em hardware de borda, como smartphones ou placas embarcadas.

Figure 2
Figura 2.

Abrindo a caixa-preta da IA

Como a segurança de infraestrutura depende da confiança, os autores também se dedicaram a tornar as decisões do modelo compreensíveis. Eles aplicam duas ferramentas de explicação — SHAP e LIME — para destacar quais regiões da imagem e quais características mais influenciaram uma determinada predição. Quando o modelo detecta uma trinca, essas ferramentas tipicamente enfatizam o caminho da trinca e suas imediações, confirmando que o sistema está “olhando” para os lugares certos em vez de ser enganado por manchas ou sombras. Durante o desenvolvimento, essas explicações também revelaram fraquezas, como uma tendência a reagir a faixas pintadas no asfalto, o que levou a equipe a ajustar o processo de treinamento e reduzir falsos positivos.

Desempenho e por que isso importa

Testado em coleções grandes e variadas de imagens de concreto e asfalto — mais de 40.000 fotos de múltiplos conjuntos de dados públicos — o modelo alcançou cerca de 99,5% de acurácia e manteve desempenho robusto mesmo em imagens novas que nunca havia visto. Ele também exigiu menos cálculos e memória do que muitas abordagens concorrentes, tornando-o adequado para integração em eletrônicos de consumo, drones e sistemas de inspeção de baixo custo. Isso significa que proprietários, gestores de instalações e engenheiros municipais poderão, um dia, usar câmeras inteligentes comuns ou aplicativos móveis para monitorar superfícies continuamente e sinalizar a formação inicial de trincas, transformando o cuidado estrutural de um evento raro e manual para uma salvaguarda rotineira e orientada por dados.

Rumo a estruturas mais seguras

Em termos simples, o estudo demonstra que uma combinação bem projetada de redes leves, transformers eficientes e um classificador avançado pode diferenciar de forma confiável superfícies trincadas de intactas, explicando por que chegou a essa conclusão. Ainda há desafios em aberto — como lidar com iluminação extrema ou com limitações severas de energia do dispositivo —, mas o trabalho aponta para um futuro em que edifícios, pontes e pavimentos possam ser monitorados automaticamente, ajudando a evitar que pequenas falhas cresçam e se tornem falhas perigosas.

Citação: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z

Palavras-chave: monitoramento de infraestrutura, fissuras em concreto, pavimento asfáltico, aprendizado profundo, visão computacional