Clear Sky Science · ru

Алгоритм обнаружения объектов для строительных и сносных отходов на основе каскадного механизма группового внимания

· Назад к списку

Почему умная сортировка отходов важна

Каждый раз, когда возводят или сносят здание, образуются горы завалов — куски бетона, разбитый кирпич, плитка, древесина, металл и пластик. В ряде городов строительные и сносные отходы теперь составляют около 40% мусора. В этом мусоре скрыты ценные материалы, которые можно переработать в новые строительные изделия, но сегодня большая часть сортировки по-прежнему выполняется вручную — это медленно, дорого и опасно. В этой работе представлен новый компьютерное зрение, который может автоматически обнаруживать и классифицировать разные типы строительных отходов в реальном времени, даже когда фрагменты мелкие, перекрываются или выглядят очень похоже друг на друга.

Figure 1
Figure 1.

Задача различить порядок в груде обломков

Сортировка смешанных строительных отходов оказывается удивительно сложной для машин. Куски бетона и керамическая плитка, например, часто имеют схожие цвета и текстуры, что легко приводит к путанице. В реальных сценах большие фрагменты находятся рядом с крошечными осколками, многие объекты частично скрыты, а освещение или угол съемки меняют внешний вид материалов. Ранние системы искусственного интеллекта для этой задачи либо уступали в точности, либо плохо справлялись с очень мелкими предметами, либо требовали большой вычислительной мощности, непрактичной для сортировочных линий и мобильного оборудования. Авторы сосредоточились на улучшении популярного семейства быстрых моделей обнаружения объектов, известных как YOLO, чтобы лучше работать в этих беспорядочных сценах, не замедляясь.

Новый способ, которым сеть уделяет внимание

В основе нового метода лежит переработанный «бэкбон», который обрабатывает изображение по этапам, вдохновленный трансформерами, применяемыми в языковых и визуальных задачах. Вместо того чтобы рассматривать изображение только в небольших локальных фрагментах, сеть учится понимать взаимосвязи удаленных областей, что помогает при перекрытии объектов или их слиянии с фоном. Чтобы сделать это эффективно, авторы вводят каскадный механизм группового внимания. Они разбивают внутреннее представление изображения на группы, позволяют каждой группе сосредоточиться на паттернах внутри себя, а затем постепенно передают информацию от одной группы к другой. Эта схема «сначала локальный фокус, затем глобальное уточнение» позволяет модели выделять тонкие различия, например между бетоном и керамикой, при этом сохраняя память и вычисления на уровне, достаточном для работы в реальном времени.

Рассмотрение отходов сразу на нескольких масштабах

Помимо распознавания типов материалов, системе также нужно находить объекты очень разных размеров — от крошечных осколков до больших балок. Поэтому модель использует несколько уровней, каждый из которых работает на разном разрешении изображения. Специальный модуль взаимодействия обеспечивает поток информации как от грубых, общих уровней к тонким, детализированным, так и в обратном направлении. Грубые уровни дают общий контекст — где лежат кучи, как сгруппированы объекты, — тогда как тонкие уровни добавляют резкие края и текстуры. Компонент пространственного внимания выделяет наиболее информативные области на каждом масштабе и подавляет отвлекающий фон. Наконец, отдельные ветви обнаружения на каждом разрешении предсказывают, где находятся объекты и к каким материалам они относятся, при обучении используется настройка, поощряющая точное расположение рамок и взвешенный компромисс между обнаружением большого числа объектов и снижением ложных срабатываний.

Figure 2
Figure 2.

Проверка системы

Для оценки подхода исследователи использовали два публичных набора данных по строительным и сносным отходам. Один, называемый BTC, содержит изображения кирпича, плитки и бетона; другой, SWP, ориентирован на сталь, древесину и пластики и включает тысячи изображений высокого разрешения. Команда сравнила свой метод с несколькими существующими версиями моделей YOLO, адаптированными под эту задачу. Их система показала существенно более высокие показатели обнаружения в обоих наборах данных, особенно по более строгой метрике, оценивающей, насколько точно предсказанные рамки совпадают с реальными контурами объектов. Модель особенно хорошо сохраняла очень высокую полноту — пропускала почти ничего — при умеренной вычислительной нагрузке, сопоставимой или ниже, чем у многих конкурентов.

Что это означает для реальной переработки

Для неспециалистов ключевая мысль такова: авторы создали более «умный» глаз для сортировки строительных отходов, который лучше, чем предыдущие инструменты, выделяет и различает перерабатываемые материалы в насыщенных, хаотичных сценах. Комбинируя эффективные механизмы внимания с многоуровневой обработкой, система точнее находит мелкие и перекрывающиеся фрагменты, оставаясь при этом достаточно быстрой для промышленного оборудования. Некоторая путаница между отходами и фоном все еще встречается, но в целом результаты стабильны и высоки на разных наборах данных. В долгосрочной перспективе такие достижения могут помочь перерабатывающим предприятиям извлекать больше ценных материалов с меньшим количеством ручного труда, сократить захоронение на свалках и сделать строительную отрасль чище и более ресурсосберегающей.

Цитирование: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5

Ключевые слова: обнаружение строительных отходов, глубинное обучение в компьютерном зрении, автоматизированная переработка, обнаружение объектов, механизмы внимания