Clear Sky Science · zh

使用 ConvNeXt V2 EMA 注意力与 WIoU v3 损失的深度学习在建筑垃圾检测中的应用

· 返回目录

为何更智能的建筑垃圾分拣至关重要

每一次新建、翻修或拆除都会产生大量碎片——破碎的混凝土、砖块、瓷砖、木材、泡沫等。许多材料本可回收,但因人工分拣耗时、成本高且易出错,常被掩埋到垃圾填埋场中。本研究探讨一种先进的人工智能方法,能从图像中自动识别并分拣不同类型的建筑垃圾,帮助城市减少污染、节约原料,并推动建筑资源的真正循环利用。

瓦砾、资源与日益严重的全球问题

建筑与拆除垃圾已成为世界增长最快的废弃物流之一,每年约产生十亿吨。这些碎堆不仅占用土地、可能污染土壤与水体,还浪费了生产这些材料所消耗的能量与排放。当前处理仍严重依赖填埋与堆放。若能实现自动视觉系统,快速区分混凝土与砖、瓷砖与木材、泡沫与石膏板,将大幅提升回收率。然而真实的工地环境复杂:物体相互重叠、覆盖尘土,且颜色与纹理相近,使可靠的自动识别成为一项艰巨的挑战。

Figure 1
Figure 1.

传送带上的新型数字“之眼”

作者提出了一种针对性目标检测系统 YOLO‑CEW,基于流行的 YOLO 实时视觉模型族。研究团队用在塞浦路斯一家回收厂拍摄的 1,774 张专用数据集进行训练,数据集中标注了六类常见建筑与拆除废料的 11,000 多个样本:混凝土、砖、瓷砖、石膏板、木材与泡沫。图像被分为训练、验证与测试集以避免过拟合,模型在不同随机初始化下重复运行以保证结果稳健。目标是在保证系统足够快以适用于移动的传送带的同时,显著提高其检测与标注每块碎片的准确性。

升级后的 AI 更善于“近看”并从错误中学习

YOLO‑CEW 在三个关键方面改进了基线 YOLOv8 模型。首先,在选定阶段替换为更新的特征提取骨干 ConvNeXt V2,它更擅长捕捉细微的视觉差异——例如区分瓷砖与混凝土的细纹——且不会显著拖慢系统。其次,加入了高效多尺度注意力(EMA)模块,使网络学会在不同尺度上关注信息量最大的区域,从而提升对大型板块与小而部分被遮挡碎片的检测能力,同时抑制干扰背景。第三,引入了更新的训练损失函数 WIoU v3,它对非常差的边界框预测给予较低权重,将学习重心放在更有价值的样本上,帮助模型更准确地收紧包围框,而不被噪声样本误导。

Figure 2
Figure 2.

在逼真条件下检验模型

在该建筑垃圾数据集上,YOLO‑CEW 达到 96.84% 的精确率、95.95% 的召回率,和 98.13% 的整体检测得分(mAP@50),均高于原始 YOLOv8 基线。实际意义上,这意味着它漏检更少、误报更少。该模型在区分像瓷砖与泡沫这类具有挑战性的类别时尤为出色,尽管在尘土模糊边界时砖与混凝土间仍存在一定混淆。重要的是,系统仍能以大约 128 帧/秒的速度运行——远高于实时监控的需求,因此适用于活动回收生产线。使用自助抽样(bootstrap)程序的统计检验证实这些提升并非偶然。与多种其他 YOLO 变体的比较表明,YOLO‑CEW 在保持速度与性能平衡的同时,准确率持续领先。

超越单一工厂:向其他垃圾流的适配

为验证方法的泛化能力,研究者还在一个公共的垃圾检测数据集上测试了 YOLO‑CEW,该数据集包含常见的家庭材料,如塑料、玻璃与纸板。即便未针对该新场景专门设计,模型在精确率、召回率与整体检测质量上仍优于标准 YOLOv8。这表明这些架构改进——更好的特征提取、更智能的注意力机制以及对差训练样本的更谨慎处理——可在其他回收与环境监测任务中复用,从家庭垃圾分拣到无人机的垃圾检测等。

对更清洁、更智慧城市的意义

对非专业读者而言,结论是 YOLO‑CEW 类似于一个更准确、更敏锐的建筑碎片视觉系统。它能监视移动的瓦砾流,识别每件物体并以极高的可靠性与速度标注其材质,从而更容易设计出用机器分拣与分流材料以便再利用而非掩埋的自动生产线。尽管挑战仍在——如应对极度混杂、扬尘与罕见材料——研究表明经过精心调优的深度学习模型可以将今日的“废物”转化为明日的资源流,支持更环保的建筑实践与更智慧的城市建设。

引用: Han, D., Ma, M., Li, X. et al. Deep learning for construction waste detection using ConvNeXt V2 EMA attention and WIoU v3 loss. Sci Rep 16, 6441 (2026). https://doi.org/10.1038/s41598-026-37473-3

关键词: 建筑垃圾, 回收 AI, 目标检测, 智慧城市, 深度学习