Clear Sky Science · sv
Vision transformers- Kolmogorov–Arnold networks-baserad konsumentdriven modell för klassificering av ytsprickor
Varför sprickor i vardagsstrukturer spelar roll
Sprickor i vägar, broar och byggnadsväggar kan börja som tunna hårsprickor men växa till allvarliga säkerhetsrisker och kostsamma reparationer. I dag förlitar sig de flesta inspektioner fortfarande på människor med clipboard eller kamera — en process som är långsam, dyr och lätt att göra fel på, särskilt när det gäller mycket små eller dolda skador. Denna artikel presenterar en ny datorbaserad metod som upptäcker och klassificerar ytsprickor i betong och asfalt med mycket hög noggrannhet, samtidigt som den är tillräckligt effektiv för att köras på mobiltelefoner, drönare eller andra små enheter. Det öppnar dörren för rutinmässig, kostnadseffektiv övervakning av de konstruktioner vi använder dagligen.
Från manuella kontroller till smarta kameror
Visuell inspektion med blotta ögat har tydliga nackdelar: den är subjektiv, tidskrävande och ibland farlig för inspektörer som arbetar vid trafikerade vägar eller höga broar. Tidigare datorprogram försökte hitta sprickor i foton med enkla tekniker som kantdetektering och tröskling, men de hade svårt med skuggor, varierande ljus eller grov textur som kan likna sprickor. Nyare system använder maskininlärning, där algoritmer lär sig mönster från många bilder. Konvolutionella neurala nätverk och nyare vision-transformers har redan lyft noggrannheten avsevärt, men de flesta har fortfarande problem att hantera tunna, oregelbundna sprickor i verkliga förhållanden och ger sällan insikt i hur de når sina beslut.

En hybrid-AI som ser tydligare
Författarna utformade en hybrid djupinlärningsmodell som kombinerar flera styrkor i ett och samma flöde. Först analyserar ett kompakt nätverk kallat MobileNet V3 bilden och extraherar lokala detaljer som kanter, mikrosprickor och textur. Sedan undersöker en transformer-modell kallad LeViT hur olika delar av bilden förhåller sig till varandra och fångar långräckta mönster — exempelvis hur en tunn spricka slingrar sig över en platta. En tredje komponent, en förbättrad Linformer-transformer, fokuserar på att effektivt modellera dessa långräckta relationer även i högupplösta bilder, men med reducerad beräkningskostnad så att den blir praktisk för små enheter.
Att blanda signaler och fatta ett slutgiltigt beslut
I stället för att bara stapla dessa komponenter använder systemet ett steg kallat "gated feature fusion" som lär sig vilka informationsbitar från varje nätverk som verkligen är viktiga och vilka som är redundanta. Detta hjälper modellen att behålla användbara ledtrådar om sprickans bredd, längd och kontinuitet samtidigt som den ignorerar distraherande bakgrundsmönster. Den sammansmälta signalen matas sedan till ett Kolmogorov–Arnold Network, en speciell typ av neuralt nätverk som representerar komplexa relationer med flexibla matematiska kurvor. Denna klassificerare är finjusterad för att dra en skarp skiljelinje mellan "spricka" och "ingen spricka", även när mönstren i datan är subtila eller röriga, samtidigt som den är snabb och kompakt nog för realtidsanvändning på kanthårdvara som smartphones eller inbäddade kort.

Att öppna AI:s svarta låda
Eftersom infrastruktursäkerhet bygger på förtroende lägger författarna också vikt vid att göra modellens beslut begripliga. De använder två förklaringsverktyg — SHAP och LIME — för att framhäva vilka bildregioner och funktioner som påverkade en viss prediktion mest. När modellen upptäcker en spricka lyfter dessa verktyg vanligtvis fram sprickans bana och dess omedelbara omgivning, vilket bekräftar att systemet "tittar" på rätt ställen snarare än att luras av fläckar eller skuggor. Under utvecklingen avslöjade dessa förklaringar också svagheter, exempelvis en benägenhet att reagera på målade marklinjer på asfalt, vilket fick teamet att justera träningsprocessen och minska falsklarm.
Hur bra det fungerar och varför det spelar roll
Testat på stora och varierade samlingar av betong- och asfaltbilder — över 40 000 foton från flera publika dataset — uppnådde modellen omkring 99,5 % noggrannhet och bibehöll stark prestanda även på nya bilder den aldrig sett tidigare. Den kördes också med färre beräkningar och mindre minnesåtgång än många konkurrerande metoder, vilket gör den lämplig för integrering i konsumentelektronik, drönare och kostnadseffektiva inspektionssystem. Det innebär att villaägare, driftansvariga och kommunala ingenjörer en dag skulle kunna använda vanliga smartkameror eller mobilappar för kontinuerlig ytovervakning och tidig upptäckt av sprickbildning, och därmed göra strukturellt underhåll till en rutinmässig, datadriven åtgärd.
Framåtblick mot säkrare konstruktioner
Kort sagt visar studien att en omsorgsfullt utformad blandning av lätta nätverk, effektiva transformers och en avancerad klassificerare kan skilja spruckna från intakta ytor på ett tillförlitligt sätt samtidigt som den förklarar varför den nått sitt beslut. Det finns fortfarande öppna utmaningar — som att hantera extremt ljusförhållanden eller mycket begränsad enhetseffekt — men arbetet pekar mot en framtid där byggnader, broar och vägar kan övervakas automatiskt, vilket hjälper till att förhindra att små fel växer till farliga haverier.
Citering: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z
Nyckelord: infrastrukturövervakning, betongsprickor, asfaltbeläggning, djupinlärning, datorseende