Clear Sky Science · fr

Jeu de données multimodal et hyperspectral pour la segmentation des encombrants en utilisant l’imagerie VIS, IR, NIR et térahertz

· Retour à l’index

Pourquoi un tri des déchets plus intelligent est important

Les encombrants domestiques — des armoires cassées aux canapés affaissés — contiennent souvent du bois réutilisable. Pourtant, une grande partie finit encore incinérée ou en décharge parce que les machines ont du mal à distinguer le bois des plastiques, des métaux ou des rembourrages, surtout lorsque ces matériaux sont empilés ou dissimulés les uns dans les autres. Cet article présente WoodVIT, un jeu de données d’images détaillé conçu pour aider l’intelligence artificielle à “voir” mieux à l’intérieur de ces tas désordonnés, afin que les futurs systèmes de tri puissent recycler plus de bois de façon sûre et efficace.

Figure 1
Figure 1.

Regarder les déchets avec de nouveaux yeux

Les machines de recyclage classiques reposent généralement sur des caméras qui voient à peu près comme nos yeux. Cela fonctionne bien pour des objets propres et isolés, mais les encombrants sont désordonnés : le bois peut être peint, recouvert de tissu, enveloppé de plastique ou renforcé par du métal. Les auteurs s’attaquent à ce problème en combinant quatre « vues » différentes des mêmes objets. Ils utilisent une caméra en lumière visible (images couleur ordinaires), une caméra proche infrarouge qui capture des empreintes spectrales propres aux matériaux, une caméra thermique qui observe comment les objets chauffent et refroidissent, et un capteur térahertz capable de détecter des structures enfouies sous la surface. Chaque technologie saisit des propriétés physiques différentes et, ensemble, elles offrent une image plus complète qu’un seul capteur.

Du mobilier cassé aux données pour les machines

Pour constituer le jeu de données, l’équipe a collecté des meubles écrasés et d’autres encombrants dans une installation de traitement locale. Ils ont disposé ces pièces mixtes sur des planches standardisées qui ont voyagé sous les quatre capteurs sur un convoyeur, imitant une ligne de tri industrielle. Chaque planche a été imagée une fois par capteur, puis les quatre images ont été soigneusement alignées afin que chaque pixel d’une image corresponde au même point physique dans les autres. Des annotateurs humains ont tracé des contours détaillés sur les images couleur, marquant le bois, les métaux, les plastiques, les minéraux, les garnitures et plusieurs situations « recouvertes » comme le métal caché sous le bois ou le bois caché sous le tissu. Ces étiquettes ont été transférées aux autres vues des capteurs, produisant 56 scènes entièrement alignées et 22 659 petits patchs d’image prêts pour l’entraînement et le test des modèles d’apprentissage automatique.

Figure 2
Figure 2.

Apprendre aux ordinateurs à repérer le bois et les dangers cachés

La tâche centrale de WoodVIT est simple à énoncer : décider si chaque petit patch d’une image est « bois » ou « non‑bois ». En interne, cela implique de gérer 717 canaux d’information par patch répartis sur les quatre capteurs. Les auteurs ont testé plusieurs modèles de réseaux neuronaux sur cette tâche, en les entraînant soit sur un seul capteur, soit sur l’ensemble des capteurs combinés. Les modèles utilisant uniquement les images couleur ont donné des résultats raisonnables, mais ceux qui ont fusionné les informations des quatre capteurs ont obtenu de meilleures performances et plus de constance. Alors que les données thermiques et térahertz seules étaient plus difficiles à exploiter, elles se sont révélées précieuses lorsqu’elles étaient combinées aux vues couleur et proche‑infrarouge, notamment dans les scènes compliquées où le bois est revêtu, empilé ou dissimule des pièces métalliques.

Comprendre l’occultation et les scènes complexes

Une caractéristique distinctive de WoodVIT est son attention aux situations réalistes « non idéales ». Le jeu de données inclut des planches où des vis métalliques sont encastrées dans le bois, ou où des cadres en bois sont enveloppés de mousse ou de tissu. Pour ces cas recouverts, les chercheurs ont construit la vérité terrain en deux étapes : ils ont d’abord imagé et étiqueté la couche de base, puis ajouté la couverture, réimagé et fusionné les étiquettes. Cette conception soignée permet d’évaluer dans quelle mesure différentes combinaisons de capteurs révèlent ce qui se trouve sous la surface. Les auteurs ont également exploré la segmentation au niveau pixel en utilisant une architecture de réseau neuronal populaire qui délimite les régions de bois dans chaque patch. Les entrées couleur et proche‑infrarouge ont produit des contours précis, montrant que les données supportent non seulement des décisions oui/non mais aussi des cartes détaillées de l’emplacement réel du bois.

Ce que cela signifie pour le recyclage futur

Pour les non‑spécialistes, le message clé est que le recyclage plus intelligent n’est pas seulement une question de meilleure caméra — il s’agit de combiner plusieurs façons de voir en une seule vue cohérente. WoodVIT fournit la matière première pour cela : une collection d’images disponible publiquement et soigneusement étiquetée qui capture l’apparence des encombrants réels dans les bandes visible, infrarouge et térahertz. En permettant aux chercheurs d’entraîner et de comparer des algorithmes avancés sur les mêmes données multimodales et exigeantes, ce travail prépare le terrain pour des systèmes de tri de nouvelle génération capables de récupérer plus de bois réutilisable, de détecter les contaminants métalliques cachés et, en fin de compte, de rendre le recyclage des encombrants plus propre, plus sûr et plus efficace.

Citation: Bihler, M., Roming, L., Čibiraitė-Lukenskienė, D. et al. Multimodal and Hyperspectral Dataset for Segmentation of Bulky Waste using VIS, IR, NIR, and Terahertz Imaging. Sci Data 13, 498 (2026). https://doi.org/10.1038/s41597-026-07053-1

Mots-clés: recyclage des encombrants, imagerie multimodale, données hyperspectrales, tri du bois, fusion de capteurs