Clear Sky Science · pt

Um algoritmo de detecção de objetos baseado em mecanismo de atenção em grupo em cascata para resíduos de construção e demolição

· Voltar ao índice

Por que a triagem de resíduos mais inteligente importa

Cada vez que um edifício é construído ou demolido, montanhas de entulho são geradas — pedaços de concreto, tijolos quebrados, azulejos, madeira, metal e plástico. Esses resíduos de construção e demolição hoje representam cerca de 40% do lixo em muitas cidades. Escondidos nesse entulho estão materiais valiosos que poderiam ser reciclados em novos produtos de construção, mas atualmente grande parte da triagem ainda é feita manualmente, o que é lento, caro e perigoso. Este artigo apresenta um novo sistema de visão computacional que pode identificar e classificar automaticamente diferentes tipos de resíduos de construção em tempo real, mesmo quando as peças são pequenas, sobrepostas ou muito semelhantes entre si.

Figure 1
Figure 1.

O desafio de ver ordem em uma pilha de entulho

Separar detritos de construção mistos é surpreendentemente difícil para máquinas. Pedaços de concreto e azulejo cerâmico, por exemplo, frequentemente compartilham cores e texturas semelhantes, o que facilita a confusão. Em cenas do mundo real, fragmentos grandes ficam ao lado de lascas minúsculas, muitos objetos estão parcialmente ocultos, e a iluminação ou o ângulo da câmera podem alterar a aparência dos materiais. Sistemas de inteligência artificial anteriores para essa tarefa ou careciam de precisão, ou tinham dificuldade com itens muito pequenos, ou exigiam grande poder computacional, pouco realista para uso em linhas de triagem e equipamentos móveis. Os autores se concentraram em melhorar uma família popular de modelos de detecção de objetos rápidos, conhecida como YOLO, para lidar melhor com essas cenas confusas e desordenadas sem perder velocidade.

Uma nova maneira para a rede prestar atenção

O coração do método é um “backbone” redesenhado que processa imagens em estágios, inspirado por modelos transformer usados em linguagem e visão. Em vez de tratar a imagem apenas em pequenos blocos locais, a rede aprende como regiões distantes se relacionam entre si, o que ajuda quando objetos se sobrepõem ou se confundem com o fundo. Para fazer isso de forma eficiente, os autores introduzem um mecanismo de atenção em grupo em cascata. Eles dividem a representação interna da imagem em grupos, permitem que cada grupo se concentre em padrões dentro de si, e então transmitem gradualmente informação de um grupo para o seguinte. Esse esquema de “foco local primeiro, refinamento global depois” permite ao modelo enfatizar diferenças sutis entre, por exemplo, concreto e cerâmica, mantendo a memória e o custo computacional baixos o suficiente para uso em tempo real.

Observando resíduos em várias escalas ao mesmo tempo

Além de reconhecer tipos de material, o sistema também deve localizar objetos de tamanhos muito diferentes, desde fragmentos minúsculos até vigas grandes. O modelo, portanto, usa múltiplas camadas que operam em diferentes resoluções de imagem. Um módulo de interação dedicado permite que a informação flua tanto de camadas grosseiras e de visão geral para as mais finas e detalhadas quanto no sentido inverso. Camadas grossas contribuem com contexto geral — onde estão as pilhas, como os objetos se agrupam — enquanto camadas finas trazem bordas nítidas e texturas. Um componente de atenção espacial então destaca as regiões mais informativas em cada escala e suprime o fundo que distrai. Finalmente, ramos de detecção separados em cada resolução prevêem onde estão os objetos e a qual material pertencem, com uma configuração de treinamento que incentiva posicionamento preciso das caixas e um equilíbrio entre encontrar muitos objetos e evitar alarmes falsos.

Figure 2
Figure 2.

Colocando o sistema à prova

Para avaliar sua abordagem, os pesquisadores usaram dois conjuntos de dados públicos de resíduos de construção e demolição. Um, chamado BTC, contém imagens de tijolos, azulejos e concreto; o outro, SWP, foca em aço, madeira e plásticos e inclui milhares de imagens em alta resolução. A equipe comparou seu método com várias versões existentes dos modelos YOLO adaptados para essa tarefa. Seu sistema alcançou pontuações de detecção marcadamente superiores em ambos os conjuntos, especialmente na medida mais rigorosa que avalia quão precisamente as caixas previstas se alinham com os contornos reais dos objetos. Mostrou-se particularmente forte em manter recall muito alto — deixando quase nenhum objeto passar — enquanto mantinha a carga computacional geral moderada, competitiva com ou inferior à de muitos modelos rivais.

O que isso significa para a reciclagem no mundo real

Para não especialistas, a conclusão-chave é que os autores construíram um “olho” mais inteligente para separar entulho de construção, capaz de identificar e distinguir materiais recicláveis em cenas movimentadas e caóticas melhor do que ferramentas anteriores. Ao combinar mecanismos de atenção eficientes com processamento multiescala, o sistema detecta peças pequenas e sobrepostas com maior precisão, mantendo velocidade suficiente para ser prático em hardware industrial. Ainda há alguma confusão entre resíduos e fundo, mas o desempenho geral é forte e estável entre diferentes conjuntos de dados. A longo prazo, tais avanços podem ajudar instalações de reciclagem a recuperar mais material valioso com menos trabalho manual, reduzir o uso de aterros e tornar a indústria da construção mais limpa e eficiente em recursos.

Citação: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5

Palavras-chave: detecção de resíduos de construção, visão profunda por aprendizado, reciclagem automatizada, detecção de objetos, mecanismos de atenção