Clear Sky Science · ru
Мультимодальный и гиперспектральный набор данных для сегментации крупногабаритных отходов с использованием видимого, ИК, ближнего ИК и терахерцового излучения
Почему более умная сортировка отходов важна
Крупногабаритный бытовой хлам — от сломанных шкафов до провисших диванов — часто содержит много пригодной для повторного использования древесины. Тем не менее большая часть таких материалов всё ещё сжигается или захоранивается, потому что машины затрудняются отличить дерево от пластика, металла и набивочных материалов, особенно когда эти материалы сложены или скрыты друг в друге. В этой статье представлен WoodVIT — подробный набор изображений, созданный, чтобы помочь искусственному интеллекту «видеть» внутри таких беспорядочных завалов лучше, чтобы будущие системы сортировки могли безопаснее и эффективнее перерабатывать больше древесины.

Смотреть на мусор новыми «глазами»
Обычные машины для переработки обычно полагаются на камеры, которые видят примерно так же, как наши глаза. Это хорошо работает для чистых одиночных объектов, но с крупногабаритными отходами всё сложнее: древесина может быть покрашена, покрыта тканью, завернута в пластик или усилена металлом. Авторы решают эту проблему, комбинируя четыре разных «вида» одного и того же предмета. Они используют камеру видимого света (обычные цветные изображения), камеру ближнего ИК, фиксирующую спектральные отпечатки материалов, тепловую камеру, которая следит за тем, как объекты нагреваются и остывают, и терахерцовый датчик, способный обнаруживать структуры, скрытые под поверхностью. Каждая технология фиксирует разные физические свойства, и вместе они дают более полную картину, чем любой отдельный датчик.
От сломанной мебели к данным для машин
Для создания набора данных команда собрала сломанную мебель и другие крупногабаритные остатки на местном пункте приёма отходов. Эти смешанные элементы размещали на стандартизированных платформах, которые перемещались под четырьмя датчиками на конвейере, имитируя промышленную линию сортировки. Каждая платформа была сфотографирована каждым датчиком, после чего все четыре изображения тщательно выравнивали так, чтобы каждый пиксель в одном изображении соответствовал той же физической точке на других. Аннотаторы вручную обводили подробные контуры на цветных изображениях, отмечая древесину, металл, пластик, минералы, обивку и несколько «покрытых» случаев, например металл, скрытый под деревом, или дерево, скрытое под тканью. Эти метки переносились на другие представления датчиков, в результате получилось 56 полностью выровненных сцен и 22 659 небольших фрагментов изображений, готовых для обучения и тестирования моделей машинного обучения.

Обучение компьютеров распознавать древесину и скрытые опасности
Основная задача в WoodVIT формулируется просто: решить, является ли каждый маленький фрагмент изображения «древесиной» или «не древесиной». За кадром это означает работу с 717 каналами информации на фрагмент, распределёнными по четырём датчикам. Авторы протестировали несколько нейросетевых моделей для этой задачи, обучая их либо на отдельных датчиках, либо на всех вместе. Модели, использовавшие только цветные изображения, показали приемлемые результаты, но модели, объединяющие данные всех четырёх датчиков, работали лучше и стабильнее. Хотя тепловые и терахерцовые данные по отдельности было сложнее использовать, они оказались ценными в сочетании с видимыми и ближне‑ИК изображениями, особенно в сложных сценах, где древесина покрыта, уложена в стопки или содержит скрытые металлические части.
Понимание окклюзии и сложных сцен
Отличительная черта WoodVIT — внимание к реалистичным, «неидеальным» ситуациям. Набор данных включает платформы, где металлические винты встроены в дерево или где деревянные рамы завернуты в пену или ткань. Для таких покрытых случаев исследователи построили эталон (ground truth) в два шага: сначала они сфотографировали и промаркировали базовый слой, затем добавили покрытие, снова сфотографировали и объединили метки. Такая тщательная методика позволяет оценить, насколько хорошо разные комбинации датчиков выявляют то, что находится под поверхностью. Авторы также исследовали сегментацию на уровне пикселя с использованием популярной нейросетевой архитектуры, которая выделяет контуры деревянных областей внутри каждого фрагмента. И видимые, и ближне‑ИК данные дали точные очертания, показывая, что набор данных поддерживает не только бинарные решения «да/нет», но и детальные карты того, где конкретно находится древесина.
Что это значит для будущей переработки
Для неспециалистов главный вывод таков: умная переработка — это не только создание лучшей камеры, это комбинирование множества способов «видеть» в единое целое. WoodVIT предоставляет для этого исходный материал: общедоступную, тщательно размеченную коллекцию изображений, показывающую, как реальные крупногабаритные отходы выглядят в видимом, инфракрасном и терахерцовом диапазонах. Позволяя исследователям обучать и сравнивать продвинутые алгоритмы на одних и тех же сложных мультимодальных данных, эта работа закладывает основу для систем следующего поколения, которые смогут извлекать больше пригодной древесины, обнаруживать скрытые металлические загрязнения и в конечном счёте делать переработку крупногабаритных отходов чище, безопаснее и эффективнее.
Цитирование: Bihler, M., Roming, L., Čibiraitė-Lukenskienė, D. et al. Multimodal and Hyperspectral Dataset for Segmentation of Bulky Waste using VIS, IR, NIR, and Terahertz Imaging. Sci Data 13, 498 (2026). https://doi.org/10.1038/s41597-026-07053-1
Ключевые слова: переработка крупногабаритных отходов, мультимодальная визуализация, гиперспектральные данные, сортировка древесины, слияние датчиков