Clear Sky Science · zh

使用可见光、红外、近红外和太赫兹成像进行大件垃圾分割的多模态高光谱数据集

2026-03-27 · 返回目录

为何更智能的垃圾分拣至关重要

大件生活垃圾——从破损的衣柜到塌陷的沙发——往往含有可再利用的木材。然而，许多此类物品仍被焚烧或填埋，因为机器难以在木材与塑料、金属和填充物之间作出区分，尤其当这些材料互相堆叠或相互覆盖时。本文介绍了 WoodVIT，这是一个详尽的图像数据集，旨在帮助人工智能更好地“看见”这些混乱堆积物的内部，从而使未来的分拣系统能够更安全、更高效地回收更多木材。

用新型“眼睛”观察垃圾

传统的回收设备通常依赖于与人眼类似的相机。这对干净的、单一的物体效果良好，但面对大件垃圾就不够：木材可能被刷漆、覆盖织物、包裹塑料或用金属加固。作者通过结合四种不同的“视角”来应对这一挑战：可见光相机（普通彩色图像）、近红外相机（捕捉材料特定的光谱指纹）、热成像相机（观察物体的加热与冷却行为），以及太赫兹传感器（能够感知埋在表面下的结构）。每种技术记录不同的物理属性，合在一起比任何单一传感器能提供更完整的图像。

从破损家具到供机器使用的数据

为了构建该数据集，团队从当地废品处理场收集了压碎的家具和其他大件残留物。他们把这些混合件放在标准化托板上，通过生产线式的传送带在四台传感器下依次成像。每块托板由每个传感器拍摄一次，然后对四张图像进行精确对齐，使得每张图像中的像素都对应相同的物理位置。人工标注者在彩色图像上绘制了详细轮廓，标注木材、金属、塑料、矿物、软垫等，以及若干“被覆盖”情形，例如金属被木材覆盖或木材被织物覆盖。这些标签被转移到其他传感器视图，最终生成了 56 个完全对齐的场景和 22,659 个可供训练与测试机器学习模型的小图像补丁。

教计算机识别木材与隐藏的危险

WoodVIT 的核心任务可以简单表述为：判断图像中的每个小补丁是“木材”还是“非木材”。在底层，这意味着每个补丁包含来自四种传感器的 717 个通道信息。作者在该任务上测试了几种神经网络模型，分别以单一传感器数据或多传感器融合数据进行训练。仅使用彩色图像的模型表现尚可，但融合四种传感器信息的模型表现更好且更稳定。尽管热成像和太赫兹数据单独学习起来较难，但当它们与彩色和近红外视图结合时，尤其在木材被涂层、堆叠或隐藏金属部件的复杂场景中，表现出显著价值。

理解遮挡与复杂场景

WoodVIT 的一个突出特点是关注现实的、“非理想”情形。数据集中包含了金属螺钉镶嵌在木材内部的托板，或木制框架被泡沫或织物包裹的场景。对于这些被覆盖的情况，研究者采用了两步构建真值的方法：先对基底层成像并标注，然后添加覆盖层，再次成像并合并标签。这样的精心设计使得评估不同传感组合揭示表面下结构的能力成为可能。作者还探索了像素级分割，使用一种流行的神经网络架构在每个补丁内描绘木材区域的轮廓。彩色和近红外输入都能产生准确的轮廓，表明这些数据不仅支持二选一的判断，也支持关于木材实际所在位置的细致地图。

这对未来回收意味着什么

对于非专业读者，关键信息是：更智能的回收不仅仅是制造更好的相机，而是将多种观测方式融合为一个统一且连贯的视图。WoodVIT 提供了这方面的原料：一个公开可用、经过精心标注的图像集合，展示了大件垃圾在可见光、红外、近红外和太赫兹波段下的真实样貌。通过使研究人员能够在相同的、具有挑战性的多模态数据上训练和比较先进算法，这项工作为下一代分拣系统奠定了基础，使其能够回收更多可用木材、识别隐藏的金属污染物，并最终让大件垃圾回收更清洁、更安全、更高效。

引用: Bihler, M., Roming, L., Čibiraitė-Lukenskienė, D. et al. Multimodal and Hyperspectral Dataset for Segmentation of Bulky Waste using VIS, IR, NIR, and Terahertz Imaging. Sci Data 13, 498 (2026). https://doi.org/10.1038/s41597-026-07053-1

关键词: 大件垃圾回收, 多模态成像, 高光谱数据, 木材分拣, 传感器融合