Clear Sky Science · nl

Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model

· Terug naar het overzicht

Waarom scheuren in alledaagse constructies ertoe doen

Scheuren in wegen, bruggen en muurvlakken van gebouwen beginnen vaak als haarfijne barstjes, maar kunnen uitgroeien tot ernstige veiligheidsrisico’s en kostbare reparaties. Tegenwoordig verlopen de meeste inspecties nog steeds met mensen die rondlopen met clipboards of camera’s, wat traag, duur en foutgevoelig is—vooral bij zeer kleine of verborgen gebreken. Dit artikel introduceert een nieuwe computergebaseerde methode die oppervlaktebruisen in beton en asfalt met zeer hoge nauwkeurigheid detecteert en classificeert, terwijl hij efficiënt genoeg is om op telefoons, drones of andere kleine apparaten te draaien. Dat opent de deur naar routinematige, goedkope monitoring van de constructies die we dagelijks gebruiken.

Van handmatige controles naar slimme camera’s

Inspecties met het blote oog hebben duidelijke nadelen: ze zijn subjectief, tijdrovend en soms gevaarlijk voor inspecteurs die op drukke wegen of hoge bruggen werken. Eerdere computerprogramma’s probeerden scheuren in foto’s te vinden met eenvoudige trucs zoals randdetectie en drempelwaarden, maar hadden moeite met schaduwen, wisselend licht of ruwe texturen die op scheuren lijken. Recente systemen gebruiken machine learning, waarbij algoritmen patronen uit veel beelden leren. Convolutionele neurale netwerken en nieuwere vision transformers hebben de nauwkeurigheid al veel hoger gebracht, maar de meeste worstelen nog steeds met fijne, onregelmatige scheuren onder realistische omstandigheden en verklaren zelden hoe ze tot hun beslissingen komen.

Figure 1
Figuur 1.

Een hybride AI-model dat helderder ziet

De auteurs ontwierpen een hybride deep learning-model dat meerdere sterke punten in één pijplijn combineert. Eerst bekijkt een compact netwerk genaamd MobileNet V3 de afbeelding en haalt lokale details naar voren, zoals randen, micro-scheuren en textuur. Vervolgens analyseert een transformer-model genaamd LeViT hoe verschillende delen van de afbeelding zich tot elkaar verhouden, en legt het langetermijnpatronen vast—zoals hoe een dunne scheur over een plaat kronkelt. Een derde component, een verbeterde Linformer-transformer, richt zich op het efficiënt modelleren van deze relaties over lange afstanden, zelfs in hoge resolutie afbeeldingen, maar met minder rekenwerk, waardoor het praktisch is voor kleine apparaten.

Signalenvloei mengen en een definitieve beslissing nemen

In plaats van deze componenten simpelweg op elkaar te stapelen, gebruikt het systeem een “gated feature fusion”-stap die leert welke informatie uit elk netwerk werkelijk relevant is en welke redundant is. Dit helpt het model nuttige aanwijzingen over scheurbreedte, -lengte en -continuïteit te behouden terwijl het afleidende achtergrondpatronen negeert. Het samengevoegde signaal wordt vervolgens doorgegeven aan een Kolmogorov–Arnold-netwerk, een speciaal type neuraal netwerk dat complexe relaties weergeeft met behulp van flexibele wiskundige krommen. Deze classifier is afgestemd om een scherpe scheidslijn te trekken tussen ‘scheur’ en ‘geen scheur’, zelfs wanneer de patronen in de data subtiel of rommelig zijn, terwijl hij snel en compact genoeg blijft voor realtime gebruik op edge-hardware zoals smartphones of embedded boards.

Figure 2
Figuur 2.

De AI-zwartdoos openen

Aangezien infrastructuurveiligheid afhankelijk is van vertrouwen, richten de auteurs zich ook op het begrijpelijk maken van de beslissingen van het model. Ze passen twee verklaringsinstrumenten toe—SHAP en LIME—om te benadrukken welke beeldregio’s en kenmerken de meeste invloed hadden op een bepaalde voorspelling. Wanneer het model een scheur detecteert, leggen deze tools doorgaans de nadruk op het scheurpad en de directe omgeving ervan, wat bevestigt dat het systeem naar de juiste plaatsen 'kijkt' in plaats van misleid te worden door vlekken of schaduwen. Tijdens de ontwikkeling brachten deze verklaringen ook zwaktes aan het licht, zoals een neiging om te reageren op geschilderde lijnen op asfalt, wat het team ertoe bracht het trainingsproces aan te passen en valse alarmen te verminderen.

Hoe goed het werkt en waarom het ertoe doet

Getest op grote en gevarieerde verzamelingen beton- en asfaltbeelden—meer dan 40.000 foto’s uit meerdere openbare datasets—bereikte het model ongeveer 99,5% nauwkeurigheid en behield het sterke prestaties zelfs op nieuwe beelden die het nog nooit eerder had gezien. Het werkte ook met minder berekeningen en minder geheugen dan veel concurrerende benaderingen, waardoor het geschikt is voor integratie in consumentenelektronica, drones en goedkope inspectiesystemen. Dit betekent dat huiseigenaren, facility managers en stedenbouwkundigen op een dag gewone slimme camera’s of mobiele apps kunnen gebruiken om continu oppervlakken te monitoren en vroege scheurvorming te signaleren, waardoor structureel onderhoud verandert van een zeldzame, handmatige gebeurtenis in een routinematige, datagestuurde bescherming.

Vooruitkijken naar veiligere constructies

In eenvoudige bewoordingen laat de studie zien dat een zorgvuldig ontworpen mix van lichtgewicht netwerken, efficiënte transformers en een geavanceerde classifier betrouwbaar kan onderscheiden tussen gebarsten en intacte oppervlakken en tegelijk kan uitleggen waarom die uitspraak is gedaan. Er blijven uitdagingen—zoals het omgaan met extreem licht of zeer beperkte apparaatkracht—maar het werk wijst op een toekomst waarin gebouwen, bruggen en wegen automatisch worden bewaakt, waarmee wordt voorkomen dat kleine gebreken uitgroeien tot gevaarlijke falen.

Bronvermelding: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z

Trefwoorden: infrastructuurmonitoring, betonscheuren, asfaltverharding, deep learning, computer vision