Clear Sky Science · es
Transformadores de visión: modelo de clasificación de fisuras superficiales impulsado por el consumidor basado en redes Kolmogorov–Arnold
Por qué importan las grietas en las estructuras cotidianas
Las grietas en carreteras, puentes y paredes de edificios pueden comenzar como fracturas capilares, pero crecer hasta convertirse en riesgos serios para la seguridad y en reparaciones costosas. Hoy en día, la mayoría de las inspecciones de grietas siguen dependiendo de personas que recorren los lugares con portapapeles o cámaras, lo cual es lento, caro y propenso a errores, sobre todo con defectos diminutos u ocultos. Este artículo presenta un nuevo método informático que detecta y clasifica grietas superficiales en hormigón y asfalto con gran precisión, a la vez que es lo bastante eficiente como para ejecutarse en teléfonos, drones u otros dispositivos pequeños. Eso abre la puerta al seguimiento rutinario y de bajo coste de las estructuras que usamos a diario.
De las inspecciones manuales a las cámaras inteligentes
Inspeccionar superficies a simple vista tiene inconvenientes evidentes: es subjetivo, consume tiempo y a veces resulta peligroso para los inspectores que trabajan en carreteras concurridas o en puentes elevados. Programas informáticos más antiguos intentaron encontrar grietas en fotografías usando trucos sencillos como detección de bordes y umbralización, pero tenían problemas con sombras, cambios de iluminación o texturas rugosas que pueden parecer grietas. Sistemas más recientes emplean aprendizaje automático, donde los algoritmos aprenden patrones a partir de muchas imágenes. Las redes neuronales convolucionales y los transformers de visión más modernos ya han aumentado mucho la precisión, sin embargo la mayoría aún tienen dificultades para manejar grietas finas e irregulares en condiciones reales y rara vez explican cómo llegan a sus decisiones.

Un modelo híbrido de IA que ve con más claridad
Los autores diseñaron un modelo híbrido de aprendizaje profundo que combina varias fortalezas en una sola canalización. Primero, una red compacta llamada MobileNet V3 analiza la imagen y extrae detalles locales como bordes, microgrietas y textura. A continuación, un modelo transformer llamado LeViT examina cómo se relacionan distintas partes de la imagen entre sí, capturando patrones de largo alcance —por ejemplo, cómo una grieta fina serpentea a lo largo de una losa. Un tercer componente, un transformer Linformer mejorado, se centra en modelar de manera eficiente estas relaciones de largo alcance incluso en imágenes de alta resolución, pero con un coste computacional reducido, de modo que sea práctico para dispositivos pequeños.
Mezclar señales y tomar la decisión final
En lugar de limitarse a apilar estos componentes, el sistema utiliza un paso de “fusión de características con compuertas” que aprende qué fragmentos de información de cada red son realmente relevantes y cuáles son redundantes. Esto ayuda al modelo a conservar pistas útiles sobre el ancho, la longitud y la continuidad de la grieta mientras ignora patrones de fondo distractores. La señal fusionada se envía luego a una Red Kolmogorov–Arnold, un tipo especial de red neuronal que representa relaciones complejas mediante curvas matemáticas flexibles. Este clasificador está afinado para trazar una frontera nítida entre los casos de “grieta” y “sin grieta”, incluso cuando los patrones en los datos son sutiles o desordenados, manteniéndose rápido y compacto para uso en tiempo real en hardware de borde como smartphones o placas embebidas.

Abrir la caja negra de la IA
Dado que la seguridad de las infraestructuras depende de la confianza, los autores también se centraron en hacer comprensibles las decisiones del modelo. Aplicaron dos herramientas de explicación —SHAP y LIME— para resaltar qué regiones de la imagen y qué características influyeron más en una predicción concreta. Cuando el modelo detecta una grieta, estas herramientas suelen enfatizar la trayectoria de la grieta y su entorno inmediato, confirmando que el sistema está “mirando” los lugares correctos en lugar de dejarse engañar por manchas o sombras. Durante el desarrollo, estas explicaciones también sacaron a la luz debilidades, como una tendencia a reaccionar frente a líneas pintadas en el asfalto, lo que llevó al equipo a ajustar el proceso de entrenamiento y reducir las falsas alarmas.
Qué tan bien funciona y por qué importa
Probado en colecciones grandes y variadas de imágenes de hormigón y asfalto —más de 40.000 fotos procedentes de varios conjuntos de datos públicos—, el modelo alcanzó alrededor del 99,5 % de precisión y mantuvo un rendimiento sólido incluso en imágenes nuevas que no había visto antes. Además, requirió menos operaciones y memoria que muchos enfoques competidores, lo que lo hace idóneo para integración en electrónica de consumo, drones y sistemas de inspección de bajo coste. Esto significa que propietarios, gestores de instalaciones e ingenieros municipales podrían algún día usar cámaras inteligentes ordinarias o aplicaciones móviles para monitorizar superficies de forma continua y detectar la formación temprana de grietas, transformando el mantenimiento estructural de un evento manual y raro en una salvaguardia rutinaria basada en datos.
Mirando hacia estructuras más seguras
En términos sencillos, el estudio muestra que una combinación bien diseñada de redes ligeras, transformers eficientes y un clasificador avanzado puede distinguir de forma fiable superficies agrietadas de intactas, explicando a la vez por qué llegó a ese veredicto. Aún quedan desafíos abiertos —como lidiar con iluminación extrema o con dispositivos de muy baja potencia—, pero el trabajo apunta hacia un futuro en el que edificios, puentes y pavimentos puedan ser vigilados automáticamente, ayudando a evitar que pequeños defectos crezcan hasta convertirse en fallos peligrosos.
Cita: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z
Palabras clave: monitorización de infraestructuras, grietas en hormigón, pavimento asfáltico, aprendizaje profundo, visión por ordenador