Clear Sky Science · pl
Vision transformers - modele klasyfikacji rys powierzchni opartych na sieciach Kolmogorowa–Arnolda napędzane przez użytkownika
Dlaczego pęknięcia w codziennych konstrukcjach mają znaczenie
Pęknięcia w drogach, mostach i ścianach budynków zaczynają się jako włosowate szczeliny, lecz mogą rozwijać się w poważne zagrożenia dla bezpieczeństwa i generować kosztowne naprawy. Obecnie większość kontroli pęknięć wciąż opiera się na ludziach z notatnikami lub kamerami — to powolne, kosztowne i podatne na błędy, szczególnie w przypadku drobnych lub ukrytych uszkodzeń. W artykule przedstawiono nowe, komputerowe podejście, które wykrywa i klasyfikuje pęknięcia powierzchniowe w betonie i asfalcie z bardzo wysoką dokładnością, przy jednoczesnej efektywności pozwalającej na uruchomienie na telefonach, dronach lub innych małych urządzeniach. To otwiera drogę do rutynowego, niskokosztowego monitoringu struktur, z których korzystamy na co dzień.
Od kontroli ręcznej do inteligentnych kamer
Oględziny wzrokowe mają oczywiste wady: są subiektywne, czasochłonne i czasami niebezpieczne dla inspektorów pracujących przy ruchliwych drogach lub wysokich mostach. Wcześniejsze programy komputerowe próbowały znaleźć pęknięcia na zdjęciach stosując proste triki, takie jak detekcja krawędzi czy progowanie, ale miały problemy z cieniami, zmiennym oświetleniem czy szorstką fakturą, które mogą przypominać pęknięcia. Nowsze systemy wykorzystują uczenie maszynowe, gdzie algorytmy uczą się wzorców z wielu obrazów. Konwolucyjne sieci neuronowe i nowsze vision transformery znacznie poprawiły dokładność, jednak większość wciąż ma trudności z wykrywaniem cienkich, nieregularnych rys w warunkach rzeczywistych i rzadko wyjaśnia, jak podejmują decyzje.

Hybrydowy model AI, który widzi wyraźniej
Autorzy zaprojektowali hybrydowy model uczenia głębokiego łączący kilka zalet w jednym potoku. Najpierw kompaktowa sieć MobileNet V3 analizuje obraz i wydobywa lokalne detale, takie jak krawędzie, mikro-pęknięcia i faktura. Następnie model transformera LeViT bada wzajemne relacje między różnymi fragmentami obrazu, wychwytując wzorce dalekiego zasięgu — na przykład, jak cienkie pęknięcie wije się po płycie. Trzecim elementem jest udoskonalony transformer Linformer, który efektywnie modeluje te dalekosiężne zależności nawet w obrazach o wysokiej rozdzielczości, przy zredukowanych wymaganiach obliczeniowych, dzięki czemu nadaje się do zastosowań na małych urządzeniach.
Mieszanie sygnałów i wydawanie ostatecznej decyzji
Zamiast po prostu układać te komponenty jeden na drugim, system wykorzystuje krok „gated feature fusion”, który uczy się, które fragmenty informacji z każdej sieci są istotne, a które zbędne. Pomaga to modelowi zachować użyteczne wskazówki dotyczące szerokości, długości i ciągłości rysy, jednocześnie ignorując rozpraszające wzory tła. Zespolony sygnał przekazywany jest następnie do Sieci Kolmogorowa–Arnolda, specjalnego typu sieci neuronowej reprezentującej złożone relacje za pomocą elastycznych krzywych matematycznych. Ten klasyfikator jest dostrojony do rysowania wyraźnej granicy między przypadkami „pęknięcie” i „brak pęknięcia”, nawet gdy wzorce w danych są subtelne lub chaotyczne, pozostając jednocześnie szybkim i kompaktowym rozwiązaniem nadającym się do pracy w czasie rzeczywistym na sprzęcie brzegowym, takim jak smartfony czy płytki wbudowane.

Otwarcie czarnej skrzynki AI
Ponieważ bezpieczeństwo infrastruktury zależy od zaufania, autorzy skupili się także na uczynieniu decyzji modelu zrozumiałymi. Zastosowali dwa narzędzia wyjaśniające — SHAP i LIME — aby podkreślić, które obszary obrazu i cechy najbardziej wpłynęły na daną predykcję. Gdy model wykrywa pęknięcie, narzędzia te zazwyczaj uwypuklają ścieżkę pęknięcia i jej najbliższe otoczenie, potwierdzając, że system „patrzy” we właściwe miejsca, zamiast być zwodniczo prowadzącym przez plamy czy cienie. W trakcie rozwoju te wyjaśnienia ujawniły też słabości, na przykład skłonność do reagowania na malowane linie na asfalcie, co skłoniło zespół do modyfikacji procesu treningowego i ograniczenia fałszywych alarmów.
Jak dobrze to działa i dlaczego ma to znaczenie
Testowany na dużych i zróżnicowanych zbiorach obrazów betonu i asfaltu — ponad 40 000 zdjęć z wielu publicznych datasetów — model osiągnął około 99,5% dokładności i zachował wysoką wydajność nawet na nowych obrazach, których wcześniej nie widział. Działał też przy mniejszej liczbie obliczeń i niższym zapotrzebowaniu na pamięć niż wiele konkurencyjnych rozwiązań, co czyni go odpowiednim do integracji w elektronice konsumenckiej, dronach i niskokosztowych systemach inspekcji. Oznacza to, że właściciele domów, zarządcy obiektów czy inżynierowie miejski mogliby w przyszłości używać zwykłych kamer lub aplikacji mobilnych do ciągłego monitorowania powierzchni i wczesnego wykrywania powstawania pęknięć, przekształcając opiekę nad konstrukcjami z rzadkiego, ręcznego działania w rutynowe, oparte na danych zabezpieczenie.
Patrząc w przyszłość ku bezpieczniejszym konstrukcjom
Mówiąc wprost, badanie pokazuje, że starannie zaprojektowane połączenie lekkich sieci, efektywnych transformerów i zaawansowanego klasyfikatora może niezawodnie odróżniać powierzchnie popękane od nienaruszonych, wyjaśniając jednocześnie, dlaczego podjęto takie rozstrzygnięcie. Wciąż istnieją otwarte wyzwania — takie jak radzenie sobie z ekstremalnym oświetleniem czy bardzo ograniczoną mocą urządzeń — lecz praca ta wskazuje na przyszłość, w której budynki, mosty i nawierzchnie mogą być automatycznie nadzorowane, pomagając zapobiegać przekształcaniu się drobnych wad w groźne awarie.
Cytowanie: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z
Słowa kluczowe: monitorowanie infrastruktury, pęknięcia betonu, nawierzchnia asfaltowa, uczenie głębokie, widzenie komputerowe