Clear Sky Science · ru

Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model

· Назад к списку

Почему трещины в повседневных сооружениях важны

Трещины на дорогах, мостах и стенах зданий могут начинаться как едва заметные волосовидные надломы, но со временем перерасти в серьёзные угрозы безопасности и дорогостоящие ремонты. Сегодня большинство проверок трещин по-прежнему основано на обходах людей с планшетами или камерами — это медленно, дорого и подвержено ошибкам, особенно при обнаружении мелких или скрытых дефектов. В этой статье предлагается новый компьютерный метод, который с высокой точностью обнаруживает и классифицирует поверхностные трещины в бетоне и асфальте, при этом оставаясь достаточно экономичным для работы на телефонах, дронах или других малых устройствах. Это открывает путь к регулярному и недорогому мониторингу сооружений, которыми мы пользуемся ежедневно.

От ручных осмотров к "умным" камерам

Осмотр поверхностей визуально имеет очевидные недостатки: он субъективен, трудоёмок и иногда опасен для инспекторов, работающих на оживлённых дорогах или высоких мостах. Ранние компьютерные программы пытались находить трещины на фотографиях с помощью простых приёмов — детекции границ или пороговой обработки, — но они плохо справлялись с тенями, изменяющимся освещением или текстурами, которые могут напоминать трещины. Более современные системы используют машинное обучение: алгоритмы учатся на множестве изображений. Свёрточные нейронные сети и новые vision-transformer’ы уже значительно повысили точность, но многие системы всё ещё испытывают трудности с тонкими, нерегулярными трещинами в реальных условиях и редко объясняют, как принимается решение.

Figure 1
Figure 1.

Гибридная модель ИИ, которая видит яснее

Авторы разработали гибридную модель глубокого обучения, объединяющую несколько сильных сторон в едином конвейере. Сначала компактная сеть MobileNet V3 извлекает из изображения локальные детали — края, микротрещины и текстуры. Затем модель-трансформер LeViT анализирует взаимосвязи между разными частями изображения, улавливая дальние закономерности — например, как тонкая трещина вьётся по плите. Третья составляющая, улучшенный Linformer, эффективно моделирует эти дальние связи даже в высоком разрешении, но с уменьшёнными вычислительными затратами, что делает её практичной для устройств с ограниченными ресурсами.

Смешение сигналов и вынесение окончательного решения

Вместо простого последовательного соединения компонентов система использует этап «затворного слияния признаков» (gated feature fusion), который обучается определять, какие фрагменты информации от каждой сети действительно важны, а какие избыточны. Это помогает модели сохранять полезные сведения о ширине, длине и непрерывности трещины, игнорируя отвлекающие фоновые паттерны. Полученный объединённый сигнал затем передаётся в сеть Колмогорова–Арнольда, специальный тип нейросети, который представляет сложные взаимосвязи с помощью гибких математических кривых. Этот классификатор настроен так, чтобы проводить чёткую границу между «трещина» и «нет трещины», даже когда паттерны в данных тонкие или шумные, оставаясь при этом быстрым и компактным для работы в реальном времени на граничном оборудовании — смартфонах или встроенных платах.

Figure 2
Figure 2.

Открывая чёрный ящик ИИ

Поскольку безопасность инфраструктуры зависит от доверия, авторы также сосредоточены на объяснимости решений модели. Они применяют два инструмента интерпретации — SHAP и LIME — чтобы выделить регионы изображения и признаки, которые сильнее всего повлияли на конкретное предсказание. Когда модель обнаруживает трещину, эти инструменты обычно подчёркивают путь трещины и её ближайшее окружение, подтверждая, что система «смотрит» в нужные места, а не сбивается с пути пятнами или тенями. В процессе разработки такие объяснения также выявляли слабые стороны — например, склонность реагировать на разметку на асфальте, что побудило команду скорректировать процесс обучения и сократить число ложных срабатываний.

Насколько хорошо это работает и почему это важно

Модель протестировали на больших и разнообразных наборах изображений бетона и асфальта — более 40 000 фотографий из нескольких публичных датасетов — она достигла примерно 99,5% точности и сохраняла высокую производительность даже на новых, ранее невиданных снимках. При этом она требовала меньше вычислений и памяти по сравнению со многими конкурентными подходами, что делает её пригодной для интеграции в потребительскую электронику, дроны и недорогие системы инспекции. Это означает, что домовладельцы, обслуживающие предприятия и городские инженеры в будущем смогут использовать обычные смарт-камеры или мобильные приложения для непрерывного мониторинга поверхностей и обнаружения раннего образования трещин, превращая уход за сооружениями из редкой ручной операции в рутинную, основанную на данных практику.

Взгляд в будущее более безопасных сооружений

Проще говоря, исследование показывает, что тщательно спроектированное сочетание лёгких сетей, эффективных трансформеров и продвинутого классификатора способно надёжно отличать повреждённые поверхности от неповреждённых и объяснять, почему был сделан тот или иной вывод. По-прежнему остаются открытые задачи — например, работа в экстремальном освещении или при очень ограничённой энергии устройства — но эта работа указывает на будущее, в котором здания, мосты и дорожные покрытия могут автоматически контролироваться, помогая не допустить превращения мелких дефектов в опасные аварии.

Цитирование: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z

Ключевые слова: мониторинг инфраструктуры, трещины в бетоне, асфальтовое покрытие, глубокое обучение, компьютерное зрение