Clear Sky Science · zh

视觉变换器——基于Kolmogorov–Arnold网络的面向用户的表面裂缝分类模型

2026-02-15 · 返回目录

为何日常结构中的裂缝至关重要

道路、桥梁和建筑墙体上的裂缝可能始于发丝般的细缝，但会扩展成严重的安全隐患并导致昂贵的修复开支。如今，大多数裂缝检查仍依赖人员持夹板或相机巡查，这既慢又成本高，而且容易出错——尤其是对于微小或隐蔽的缺陷。本文提出了一种新的基于计算机的方法，能够以极高的准确率检测并分类混凝土与沥青表面的裂缝，同时高效到可在手机、无人机或其他小型设备上运行，从而为我们日常使用的结构提供常规、低成本的监测可能性。

从人工检查到智能相机

目视检查存在明显局限：判断带有主观性、耗时，并且检查人员在繁忙道路或高桥上作业时有时存在危险。早期的计算机程序试图通过边缘检测和阈值分割等简单手段在照片中识别裂缝，但它们在阴影、光照变化或粗糙纹理等情况下表现不佳，这些因素会被误判为裂缝。更近的系统采用机器学习，从大量图像中学习模式。卷积神经网络和更新的视觉变换器已经大幅提升了准确率，然而大多数方法在真实世界条件下仍难以可靠处理细小、不规则的裂缝，并且很少解释其决策依据。

一种能看得更清晰的混合型人工智能模型

作者设计了一个混合深度学习模型，将若干优势整合在一个管线中。首先，一个紧凑的网络MobileNet V3分析图像并提取局部细节，例如边缘、微裂缝和纹理。接着，名为LeViT的变换器模型分析图像不同部分之间的关系，捕捉长程模式——例如细裂缝如何在板面上曲折延伸。第三个组件是改进的Linformer变换器，专注于在高分辨率图像中高效建模这些长程关系，同时降低计算量，使其可在小型设备上实用。

混合信号并做出最终判定

系统并非简单地堆叠这些组件，而是采用“门控特征融合”步骤，学习来自每个网络的哪些信息是真正重要的、哪些是冗余的。这有助于模型保留关于裂缝宽度、长度和连续性的有用线索，同时忽略干扰性的背景纹理。融合后的信号传入Kolmogorov–Arnold网络，这是一类使用灵活数学曲线表示复杂关系的特殊神经网络。该分类器被调整为在“裂缝”和“非裂缝”之间划出明确边界，即便数据中的模式细微或混乱，同时速度快且体积小，适合在智能手机或嵌入式板等边缘硬件上实时使用。

打开人工智能的黑箱

鉴于基础设施安全依赖于信任，作者还关注使模型决策可解释。他们采用了两种解释工具——SHAP和LIME——以突出哪些图像区域和特征对给定预测影响最大。当模型检测到裂缝时，这些工具通常会强调裂缝路径及其周边，确认系统是在关注正确区域，而非被污渍或阴影误导。在开发过程中，这些解释还揭示了弱点，例如模型倾向于对沥青上的油漆线产生反应，这促使团队调整训练流程以减少误报。

效果如何以及为何重要

在多达4万余张、来自多个公开数据集的混凝土与沥青图像上测试，该模型达到约99.5%的准确率，并在从未见过的新图像上仍保持强劲性能。它的计算和内存开销也少于许多竞品，使其适合集成到消费电子、无人机和低成本检测系统中。这意味着未来家庭用户、设施管理者和城市工程师有望使用普通智能相机或移动应用持续监控表面并标记早期裂缝，从而将结构维护从罕见的人工事件转变为常规的、数据驱动的保障措施。

展望更安全的结构

简而言之，这项研究表明，经过精心设计的轻量网络、高效变换器与先进分类器的组合，可以在解释其判定理由的同时可靠地区分破裂与完好表面。当然仍存在未解挑战——例如极端光照或设备极限的能耗问题——但该工作指向了一个未来：建筑、桥梁和路面能被自动监控，帮助防止微小缺陷演变为危险性故障。

引用: Wahab Sait, A.R., Sankaranarayanan, S. & Yu, Y. Vision transformers- Kolmogorov–Arnold networks-based consumer driven surface cracks classification model. Sci Rep 16, 9183 (2026). https://doi.org/10.1038/s41598-026-40359-z

关键词: 基础设施监测, 混凝土裂缝, 沥青路面, 深度学习, 计算机视觉