Clear Sky Science · zh

用于面向信心感知的真实世界垃圾分类的深度残差与混合 CNN 模型,以实现可持续废物管理

· 返回目录

更智能的垃圾分拣为何重要

现代生活产生大量垃圾,而许多垃圾最终流向错误的地方。当可回收物被埋入垃圾填埋场,或食物残渣与金属和塑料混合时,我们不仅失去有价值的资源,还产生污染和温室气体。本研究探讨了如何利用先进的基于图像的人工智能在真实垃圾场的混乱环境中自动识别不同类型的废物,目标是使回收比单靠人工分拣更快速、更安全且更可靠。

Figure 1
Figure 1.

来自真实垃圾场,而非干净的实验室照片

以往大多数自动垃圾分拣研究依赖于干净、精心布置的图片:中心放置的单个瓶子或整齐排列的纸张与玻璃。相比之下,作者使用了 RealWaste 数据集——在澳大利亚某废物与回收处理设施拍摄的数千张彩色照片集合。每张图像可能包含变形、重叠或肮脏的物品,散落在粗糙的混凝土地面上:纸板管、食物残渣、碎玻璃、皱巴的纸张、金属碎片、塑料容器和纺织品碎片。这些图像被分为与处理设施第一阶段实际分拣方式相匹配的九大类,例如纸类、塑料、金属、食物有机物和植被。这种关注真实场景的做法使得所得系统对现实操作更具相关性。

在做出判断前先“清理”图像

由于原始图像非常杂乱,研究团队首先使用多种图像分割技术对其进行“清理”。他们没有依赖单一方法,而是采用四种不同方式将前景物体与背景分离,每种方法针对不同的视觉线索(如对比度、光照或颜色分组)进行调整。将结果合并后,仅保留由多种方法共同认可的区域作为可能的废物项。随后进一步将接触或堆叠在一起的物体分离开来。这样就生成了一个精炼的掩膜,只突出显示垃圾并抑制地面与周围环境的干扰纹理。然后将原始图像通过该掩膜过滤,使神经网络主要看到废物本身,而非周围噪声。

深度网络与混合模型学会识别垃圾

在此预处理基础上,研究者对一系列现代图像识别网络(卷积神经网络)进行微调。这些网络包括流行架构如 Inception、DenseNet、VGG、EfficientNet、MobileNet 以及多个版本的 ResNet。其中,一种非常深的模型 ResNet101 表现出色,在 RealWaste 数据上达到近 99% 的准确率和同样高的 F1 分数。为进一步提升性能,作者构建了“混合”模型,将两种不同网络的内部特征图进行融合——例如结合 ResNet101 在纹理与结构处理方面的优势与 InceptionV3 在多尺度观察物体方面的能力。对于纺织品与杂项垃圾等难以辨识的类别,这些混合模型尤其有帮助,因为这些物品可能起皱、破损或部分被遮挡。

不仅检查模型的预测结果,还评估其置信度

除了原始准确率外,该研究还提出一个对任何可能部署在工厂或城市分拣中心的系统至关重要的问题:模型对每个决策有多自信?对于每一次预测,网络会产生一个介于 0 到 1 之间的置信度分数,表示其认为某项属于某一类别的确信程度。作者分析了数千张测试图像中这些分数的分布。他们发现,对于视觉上易区分的类别(如植被、塑料容器和食物有机物),无论是最佳单一模型还是最佳混合模型通常都具有非常高的置信度,常常高于 0.95。更易混淆的类别则显示出更广泛的分数范围,提示在这些类别上可能需要额外的人为复核或改进训练数据。他们还证明,在分类前加入分割步骤能显著提升所有关键性能指标,从准确率到 F1 分数均有所提高。

Figure 2
Figure 2.

迈向更可靠且可持续的废物系统

简而言之,论文表明精心设计的图像清理、深度学习与混合模型结合体,能够在物品肮脏、重叠或形状异常时,仍以显著可靠性识别真实世界的垃圾。ResNet101 作为强大的主干网络脱颖而出,而混合模型则为最难识别的材料提供了额外优势。通过为每个决策附加有意义的置信度分数,系统不仅进行分拣,还能在不确定时发出信号,为更安全的自动化铺平道路。尽管仍需进一步工作来压缩模型以适配小型设备并在全规模实时设施中测试,但这项研究为智能垃圾分拣奠定了坚实基础,能帮助城市提升回收率、减少填埋量并降低日常垃圾对环境的负担。

引用: Kumar, Y., Bhardwaj, P., Malhotra, S. et al. Deep residual and hybrid CNN models for confidence-aware real-world waste classification for sustainable waste management. Sci Rep 16, 10424 (2026). https://doi.org/10.1038/s41598-026-41001-8

关键词: 垃圾分类, 深度学习, 计算机视觉, 回收系统, 可持续废物管理