Clear Sky Science · de

Multimodales und hyperspektrales Datenset zur Segmentierung von Sperrmüll mittels VIS-, IR-, NIR- und Terahertz‑Bildgebung

· Zurück zur Übersicht

Warum intelligentere Abfalltrennung wichtig ist

Große Haushaltsgegenstände – von kaputten Kleiderschränken bis zu durchgesessenen Sofas – enthalten häufig wiederverwendbares Holz. Dennoch wird ein Großteil verbrannt oder deponiert, weil Maschinen Probleme haben, Holz von Kunststoff, Metall oder Polsterung zu unterscheiden, insbesondere wenn diese Materialien übereinanderliegen oder ineinander verborgen sind. Dieser Artikel stellt WoodVIT vor, ein detailliertes Bilddatenset, das Künstlicher Intelligenz helfen soll, in solchen unordentlichen Haufen besser „hineinzusehen“, damit künftige Sortiersysteme mehr Holz sicher und effizient recyceln können.

Figure 1
Figure 1.

Den Müll mit neuen Augen betrachten

Konventionelle Sortieranlagen verlassen sich meist auf Kameras, die ungefähr das sehen, was auch unser Auge sieht. Das funktioniert gut bei sauberen Einzelobjekten, aber Sperrmüll ist chaotisch: Holz kann lackiert sein, von Stoff überzogen, in Plastik eingewickelt oder mit Metall verstärkt. Die Autor:innen begegnen diesem Problem, indem sie vier verschiedene „Sichten“ derselben Abfallstücke kombinieren. Sie nutzen eine Sichtfeldkamera (normale Farbaufnahmen), eine Nahinfrarotkamera, die materialspezifische spektrale Fingerabdrücke erfasst, eine Wärmebildkamera, die beobachtet, wie Objekte sich erwärmen und abkühlen, und einen Terahertz‑Sensor, der Strukturen unter der Oberfläche wahrnehmen kann. Jede Technologie erfasst unterschiedliche physikalische Eigenschaften, und zusammen liefern sie ein vollständigeres Bild als jeder einzelne Sensor für sich.

Von kaputten Möbeln zu Daten für Maschinen

Für das Datenset sammelte das Team zertrümmerte Möbel und andere sperrige Reste von einer lokalen Entsorgungsanlage. Sie legten diese gemischten Teile auf standardisierte Platten, die unter den vier Sensoren auf einem Förderband transportiert wurden – analog zu einer industriellen Sortierlinie. Jede Platte wurde von jedem Sensor einmal aufgenommen, anschließend wurden alle vier Bilder sorgfältig ausgerichtet, sodass jedes Pixel in einem Bild dem gleichen physischen Punkt in den anderen Bildern entsprach. Menschliche Annotator:innen zeichneten detaillierte Umrisse auf den Farbaufnahmen und markierten Holz, Metall, Kunststoffe, Mineralien, Polsterung sowie mehrere „verdeckte“ Situationen wie Metall unter Holz oder Holz unter Stoff. Diese Labels wurden auf die anderen Sensorsichten übertragen, was 56 vollständig ausgerichtete Szenen und 22.659 kleine Bildausschnitte ergab, die bereit für Training und Test von Machine‑Learning‑Modellen sind.

Figure 2
Figure 2.

Computern beibringen, Holz und verborgene Gefahren zu erkennen

Die zentrale Aufgabe in WoodVIT lässt sich einfach formulieren: Entscheide für jeden kleinen Bildausschnitt, ob er „Holz“ oder „Nicht‑Holz“ ist. Im Hintergrund bedeutet das jedoch, pro Ausschnitt mit 717 Informationskanälen über die vier Sensoren hinweg umzugehen. Die Autor:innen testeten mehrere neuronale Netzmodelle für diese Aufgabe, trainiert wahlweise mit einzelnen Sensoren oder mit der Kombination aller Sensoren. Modelle, die nur Farbaufnahmen nutzten, schnitten einigermaßen gut ab, doch diejenigen, die Informationen aller vier Sensoren fusionierten, waren besser und konstanter. Wärme‑ und Terahertz‑Daten allein waren schwieriger zu lernen, erwiesen sich aber als wertvoll, wenn sie mit Farb‑ und Nahinfrarotsichten kombiniert wurden, insbesondere in kniffligen Szenen, in denen Holz beschichtet, gestapelt oder Metallteile verborgen sind.

Umgang mit Verdeckungen und komplexen Szenen

Ein hervorstechendes Merkmal von WoodVIT ist der Fokus auf realistische, „nicht-ideale“ Situationen. Das Datenset enthält Platten, auf denen Metallschrauben im Holz eingebettet sind oder Holzrahmen in Schaumstoff oder Stoff gewickelt wurden. Für diese bedeckten Fälle erstellten die Forschenden die Ground‑Truth in zwei Schritten: Zuerst wurden die Basisschicht abgebildet und beschriftet, dann wurde die Abdeckung hinzugefügt, erneut abgebildet und die Labels zusammengeführt. Diese sorgfältige Vorgehensweise macht es möglich, zu beurteilen, wie gut verschiedene Sensor‑Kombinationen das Beneath‑Surface‑Material offenlegen. Die Autor:innen untersuchten außerdem die Pixel‑ebene Segmentierung mit einem verbreiteten Netzwerkdesign, das Holzregionen innerhalb jedes Ausschnitts umreißt. Sowohl Farb- als auch Nahinfraroteingaben lieferten genaue Umrisse, was zeigt, dass die Daten nicht nur Ja/Nein‑Entscheidungen unterstützen, sondern auch detaillierte Karten darüber, wo sich das Holz tatsächlich befindet.

Was das für das Recycling der Zukunft bedeutet

Für Nicht‑Fachleute lautet die Kernbotschaft: Intelligenteres Recycling besteht nicht nur darin, eine bessere Kamera zu bauen – es geht darum, viele Blickweisen zu einer einzigen, kohärenten Sicht zu kombinieren. WoodVIT liefert das Rohmaterial dafür: eine öffentlich verfügbare, sorgfältig gelabelte Sammlung von Bildern, die zeigt, wie realer Sperrmüll über sichtbares Licht, Infrarot und Terahertz hinweg aussieht. Indem Forschende fortgeschrittene Algorithmen an denselben herausfordernden, multimodalen Daten trainieren und vergleichen können, schafft diese Arbeit die Grundlage für Sortiersysteme der nächsten Generation, die mehr brauchbares Holz zurückgewinnen, versteckte Metallkontaminanten erkennen und letztlich das Sperrmüllrecycling sauberer, sicherer und effizienter machen können.

Zitation: Bihler, M., Roming, L., Čibiraitė-Lukenskienė, D. et al. Multimodal and Hyperspectral Dataset for Segmentation of Bulky Waste using VIS, IR, NIR, and Terahertz Imaging. Sci Data 13, 498 (2026). https://doi.org/10.1038/s41597-026-07053-1

Schlüsselwörter: Sperrmüllrecycling, multimodale Bildgebung, hyperspektrale Daten, Holzsortierung, Sensorfusion