Clear Sky Science · fr

Transformers visuels - Modèle de classification des fissures de surface orienté consommateur basé sur les réseaux Kolmogorov–Arnold

2026-02-15 · Retour à l’index

Pourquoi les fissures dans les structures quotidiennes comptent

Les fissures dans les routes, les ponts et les murs des bâtiments commencent parfois comme des micro-fractures, mais elles peuvent évoluer en risques sérieux pour la sécurité et en réparations coûteuses. Aujourd’hui, la plupart des inspections de fissures reposent encore sur des personnes munies de carnets ou d’appareils photo, ce qui est lent, coûteux et sujet à erreur—en particulier pour les défauts très fins ou cachés. Cet article présente une nouvelle méthode informatique qui détecte et classe les fissures de surface dans le béton et l’enrobé avec une très grande précision, tout en étant assez efficace pour fonctionner sur des téléphones, des drones ou d’autres appareils compacts. Cela ouvre la voie à une surveillance courante et peu coûteuse des structures que nous utilisons au quotidien.

Des contrôles manuels aux caméras intelligentes

Inspecter les surfaces à l’œil nu présente des inconvénients évidents : c’est subjectif, chronophage et parfois dangereux pour les inspecteurs travaillant sur des routes fréquentées ou des ponts élevés. Des programmes informatiques plus anciens tentaient de repérer les fissures sur des photos en utilisant des astuces simples comme la détection de contours et le seuillage, mais ils peinaient face aux ombres, aux variations d’éclairage ou aux textures rugueuses pouvant ressembler à des fissures. Les systèmes plus récents utilisent l’apprentissage automatique, où les algorithmes apprennent des motifs à partir de nombreuses images. Les réseaux convolutifs et les transformers visuels plus récents ont déjà amélioré nettement la précision, mais la plupart ont encore du mal à traiter des fissures fines et irrégulières dans des conditions réelles et expliquent rarement la façon dont ils aboutissent à leurs décisions.

Un modèle d’IA hybride qui voit plus clairement

Les auteurs ont conçu un modèle d’apprentissage profond hybride qui combine plusieurs points forts au sein d’un même flux de traitement. D’abord, un réseau compact appelé MobileNet V3 analyse l’image et extrait des détails locaux tels que les contours, les micro-fissures et la texture. Ensuite, un modèle transformer nommé LeViT étudie les relations entre différentes parties de l’image, capturant des motifs à longue portée—par exemple la manière dont une fissure fine s’étire sur une dalle. Un troisième composant, un Linformer amélioré, se concentre sur la modélisation efficace de ces relations à longue portée même dans des images haute résolution, mais avec un coût de calcul réduit, ce qui le rend pratique pour les petits appareils.

Mélanger les signaux et prendre une décision finale

Plutôt que d’empiler simplement ces composants, le système utilise une étape de « fusion de caractéristiques à verrouillage » (“gated feature fusion”) qui apprend quelles informations de chaque réseau sont réellement importantes et lesquelles sont redondantes. Cela aide le modèle à conserver les indices utiles concernant la largeur, la longueur et la continuité des fissures tout en ignorant les motifs de fond distrayants. Le signal fusionné est ensuite transmis à un réseau Kolmogorov–Arnold, un type particulier de réseau neuronal qui représente des relations complexes à l’aide de courbes mathématiques flexibles. Ce classificateur est ajusté pour tracer une frontière nette entre les cas « fissure » et « pas de fissure », même lorsque les motifs dans les données sont subtils ou désordonnés, tout en restant rapide et suffisamment compact pour une utilisation en temps réel sur du matériel embarqué comme les smartphones ou les cartes embarquées.

Ouvrir la « boîte noire » de l’IA

Parce que la sécurité des infrastructures dépend de la confiance, les auteurs se sont aussi attachés à rendre les décisions du modèle compréhensibles. Ils appliquent deux outils d’explicabilité—SHAP et LIME—pour mettre en évidence les régions d’image et les caractéristiques qui ont le plus influencé une prédiction donnée. Lorsque le modèle détecte une fissure, ces outils soulignent en général le trajet de la fissure et son environnement immédiat, confirmant que le système « regarde » les bons endroits plutôt que d’être trompé par des taches ou des ombres. Pendant le développement, ces explications ont également mis au jour des faiblesses, comme une tendance à réagir aux lignes peintes sur l’enrobé, ce qui a conduit l’équipe à ajuster le processus d’entraînement et à réduire les fausses alertes.

Performances et importance

Testé sur de larges et variées collections d’images de béton et d’enrobé—plus de 40 000 photos issues de plusieurs jeux de données publics—le modèle a atteint environ 99,5 % de précision et a maintenu de bonnes performances même sur des images inédites. Il a aussi nécessité moins de calculs et de mémoire que de nombreuses approches concurrentes, ce qui le rend adapté à une intégration dans l’électronique grand public, les drones et les systèmes d’inspection à faible coût. Cela signifie que des propriétaires, des gestionnaires d’installations et des ingénieurs municipaux pourraient un jour utiliser des caméras intelligentes ordinaires ou des applications mobiles pour surveiller en continu les surfaces et signaler la formation précoce de fissures, transformant l’entretien structurel d’un événement rare et manuel en une protection de routine fondée sur les données.

Perspectives pour des structures plus sûres

En termes simples, l’étude montre qu’un mélange soigneusement conçu de réseaux légers, de transformers efficaces et d’un classificateur avancé peut distinguer de manière fiable les surfaces fissurées des surfaces intactes tout en expliquant les raisons de son verdict. Il subsiste des défis ouverts—comme la gestion d’un éclairage extrême ou d’une très faible puissance disponible sur les appareils—mais ce travail ouvre la voie à un avenir où les bâtiments, ponts et chaussées pourraient être surveillés automatiquement, aidant à empêcher que de petits défauts ne se transforment en défaillances dangereuses.

Citation: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z

Mots-clés: surveillance des infrastructures, fissures dans le béton, revêtement en enrobé, apprentissage profond, vision par ordinateur