Clear Sky Science · zh

基于级联组注意力机制的建筑拆除垃圾目标检测算法

2026-03-02 · 返回目录

为何更智能的垃圾分拣至关重要

每当一栋建筑拔地而起或被拆除，就会产生大量碎石——混凝土块、破碎的砖块、瓷砖、木材、金属和塑料。在许多城市中，建筑与拆除产生的废弃物现在约占垃圾总量的40%。这些废料中隐藏着可以回收再利用并制成新建材的有价值材料，但目前大量的分拣仍靠人工完成，速度慢、成本高且存在危险。本文提出了一种新的计算机视觉系统，能够实时自动识别并分类不同类型的建筑废料，即使碎片很小、相互重叠或外观非常相似也能做到。

在碎堆中识别秩序的挑战

对机器来说，分拣混合建筑垃圾出乎意料地困难。例如，混凝土和瓷砖常常具有相似的颜色与纹理，容易被混淆。在真实场景中，大块碎片旁边可能就是微小碎屑，许多物体部分被遮挡，光照或摄像角度也会改变材料的外观。早期用于此任务的人工智能系统要么精度不足、要么难以处理极小目标、要么需要在分拣线和移动设备上不现实的高算力。作者们将注意力集中在改进一类流行且速度快的目标检测模型（即YOLO系列），以便在不降低速度的前提下更好地处理这些杂乱的场景。

网络关注方式的新路径

该方法的核心是重新设计的“主干网络”，它分阶段处理图像，灵感来自于用于语言与视觉任务的Transformer模型。与仅将图像视为小块局部处理不同，网络学习不同区域间的关系，这在物体重叠或与背景融合时尤其有用。为高效实现这一点，作者引入了级联组注意力机制。他们将图像的内部表示分成若干组，让每组在内部关注自身的模式，然后逐步将信息从一组传递到下一组。这种“先局部聚焦、后全局精炼”的方案使模型能够强调例如混凝土与陶瓷之间的细微差别，同时保持内存与计算开销足够低，适用于实时运行。

同时从多尺度观察废料

除了识别材料类型，系统还需要检测尺寸差别很大的物体，从微小碎片到大型横梁不等。因此模型使用了多个在不同图像分辨率下工作的层次。一个专门的交互模块允许信息既从粗粒度的大图景层流向精细层，也可以反向流动。粗粒度层贡献整体语境——堆放位置、物体聚集方式——而精细层提供清晰的边缘与纹理。空间注意力组件在每个尺度上突出最有信息量的区域并抑制干扰背景。最后，在每个分辨率上分别设置检测分支来预测物体的位置与所属材料，训练配置鼓励更精确的边界框定位，并在检测数量与误报之间取得平衡。

把系统拿到现实中检验

为了评估他们的方法，研究者使用了两个公开的建筑拆除废料数据集。一个名为BTC，包含砖块、瓷砖和混凝土的图像；另一个SWP侧重于钢材、木材与塑料，包含数千张高分辨率图片。团队将他们的方法与若干已为此任务改造的YOLO模型版本进行了比较。该系统在两个数据集上的检测得分明显更高，尤其是在衡量预测边框与真实对象轮廓对齐精度的更严格指标上表现突出。系统在保持极高召回率方面尤为强劲——几乎不漏检目标——同时总体计算负载适中，与许多竞品相比具有竞争力甚至更低。

对现实回收工作的意义

对非专业读者来说，关键结论是作者构建了一个更聪明的“眼睛”来分拣建筑废料，能在复杂混乱的场景中比以往工具更好地识别和区分可回收材料。通过将高效的注意力机制与多尺度处理结合，系统对微小与重叠碎片的检测更准确，同时仍足够快速以适用于工业硬件。背景与废料间仍存在部分混淆，但总体性能在不同数据集上都表现稳健。长期来看，此类进步有望帮助回收设施以更少的人工回收更多有价值材料，减少填埋并使建筑行业更加清洁与资源高效。

引用: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5

关键词: 建筑废料检测, 深度学习视觉, 自动化回收, 目标检测, 注意力机制