Clear Sky Science · de

Vision Transformers – Kolmogorov–Arnold-Netzwerke-basiertes, verbraucherorientiertes Modell zur Klassifizierung von Oberflächenrissen

2026-02-15 · Zurück zur Übersicht

Warum Risse in Alltagsbauwerken wichtig sind

Risse in Straßen, Brücken und Wänden beginnen oft als feine Haarrisse, können aber zu ernsthaften Sicherheitsrisiken und kostspieligen Reparaturen anwachsen. Noch heute beruhen die meisten Rissinspektionen auf Menschen mit Klemmbrettern oder Kameras, was langsam, teuer und leicht fehleranfällig ist – besonders bei winzigen oder verdeckten Schäden. Diese Arbeit stellt eine neue, rechnergestützte Methode vor, die Oberflächenrisse in Beton und Asphalt mit sehr hoher Genauigkeit erkennt und klassifiziert und gleichzeitig effizient genug ist, um auf Smartphones, Drohnen oder anderen kleinen Geräten zu laufen. Das eröffnet die Möglichkeit für regelmäßige, kostengünstige Überwachung der von uns täglich genutzten Bauwerke.

Von manuellen Kontrollen zu intelligenten Kameras

Die Sichtprüfung hat deutliche Nachteile: Sie ist subjektiv, zeitaufwendig und für Prüfer, die an stark befahrenen Straßen oder hohen Brücken arbeiten, mitunter gefährlich. Frühere Computerprogramme suchten Risse in Fotos mit einfachen Verfahren wie Kantenerkennung und Schwellenwertbildung, scheiterten jedoch an Schatten, wechselnder Beleuchtung oder rauen Texturen, die wie Risse aussehen können. Neuere Systeme nutzen maschinelles Lernen, bei dem Algorithmen Muster aus vielen Bildern lernen. Convolutional Neural Networks und neuere Vision Transformers haben die Genauigkeit bereits stark verbessert, doch viele haben weiterhin Schwierigkeiten mit feinen, unregelmäßigen Rissen unter realen Bedingungen und erklären selten, wie sie zu ihren Entscheidungen gelangen.

Ein hybrides KI‑Modell, das klarer sieht

Die Autoren entwickelten ein hybrides Deep‑Learning‑Modell, das mehrere Stärken in einer Pipeline kombiniert. Zuerst extrahiert ein kompaktes Netzwerk namens MobileNet V3 lokale Details wie Kanten, Mikrorisse und Textur. Anschließend analysiert ein Transformer‑Modell namens LeViT, wie verschiedene Bildbereiche zueinander in Beziehung stehen, und erfasst so langreichweitige Muster – etwa wie sich ein schmaler Riss über eine Platte schlängelt. Eine dritte Komponente, ein verbesserter Linformer‑Transformer, konzentriert sich darauf, diese langfristigen Beziehungen auch in hochauflösenden Bildern effizient zu modellieren, jedoch mit reduziertem Rechenaufwand, sodass er für kleine Geräte praktikabel bleibt.

Signalmischung und die finale Entscheidung

Anstatt diese Komponenten einfach zu stapeln, verwendet das System einen Schritt der „gated feature fusion“, der lernt, welche Informationsanteile aus jedem Netzwerk wirklich wichtig sind und welche redundant sind. Das hilft dem Modell, nützliche Hinweise zu Rissbreite, -länge und -kontinuität zu bewahren und ablenkende Hintergrundmuster zu ignorieren. Das verschmolzene Signal wird dann an ein Kolmogorov–Arnold‑Netz weitergegeben, eine spezielle Art von neuronalen Netzwerken, die komplexe Zusammenhänge mithilfe flexibler mathematischer Kurven darstellt. Dieser Klassifikator ist darauf abgestimmt, eine scharfe Grenze zwischen „Riss“ und „kein Riss“ zu ziehen, selbst wenn die Muster in den Daten subtil oder unordentlich sind, und bleibt dabei schnell und kompakt genug für den Echtzeiteinsatz auf Edge‑Hardware wie Smartphones oder eingebetteten Boards.

Die KI‑Blackbox öffnen

Da die Sicherheit von Infrastrukturen auf Vertrauen beruht, legen die Autoren auch Wert darauf, die Entscheidungen des Modells nachvollziehbar zu machen. Sie setzen zwei Erklärungswerkzeuge ein – SHAP und LIME –, um hervorzuheben, welche Bildbereiche und Merkmale eine Vorhersage am stärksten beeinflusst haben. Wenn das Modell einen Riss erkennt, betonen diese Werkzeuge typischerweise den Rissverlauf und seine unmittelbare Umgebung, was bestätigt, dass das System die richtigen Bereiche „anschaut“ und nicht durch Flecken oder Schatten fehlgeleitet wird. Während der Entwicklung legten die Erklärungen auch Schwächen offen, etwa eine Neigung, auf Fahrbahnmarkierungen auf Asphalt zu reagieren, woraufhin das Team den Trainingsprozess anpasste und Fehlalarme reduzierte.

Leistung und Bedeutung

Getestet an großen und vielfältigen Sammlungen von Beton‑ und Asphaltbildern – über 40.000 Fotos aus mehreren öffentlichen Datensätzen – erreichte das Modell etwa 99,5 % Genauigkeit und hielt auch bei neuen, zuvor ungesehenen Bildern eine starke Leistung. Es benötigte zudem weniger Rechenaufwand und Speicher als viele konkurrierende Ansätze, wodurch es sich gut für die Integration in Verbraucherhardware, Drohnen und kostengünstige Inspektionssysteme eignet. Das bedeutet, dass Hausbesitzer, Facility Manager und kommunale Ingenieure eines Tages gewöhnliche Überwachungskameras oder mobile Apps nutzen könnten, um Oberflächen kontinuierlich zu überwachen und frühzeitige Rissbildung zu melden – und so die Bauwerksbetreuung von einem seltenen, manuellen Vorgang in eine routinemäßige, datengestützte Vorsorge zu verwandeln.

Ausblick auf sicherere Bauwerke

Kurz gesagt zeigt die Studie, dass eine sorgfältig entworfene Mischung aus leichten Netzwerken, effizienten Transformern und einem fortschrittlichen Klassifikator zuverlässig zwischen rissigen und intakten Oberflächen unterscheiden kann und dabei begründet, weshalb sie zu diesem Urteil gelangt. Es bleiben noch offene Herausforderungen – beispielsweise extreme Beleuchtungssituationen oder sehr begrenzte Geräteenergie – doch die Arbeit weist in eine Zukunft, in der Gebäude, Brücken und Fahrbahnen automatisch überwacht werden können, um zu verhindern, dass kleine Schäden sich zu gefährlichen Ausfällen entwickeln.

Zitation: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z

Schlüsselwörter: Infrastrukturüberwachung, Betonrisse, Asphaltbelag, Deep Learning, Computer Vision