Clear Sky Science · fr

Algorithme de détection d’objets basé sur un mécanisme d’attention en groupe en cascade pour les déchets de construction et de démolition

· Retour à l’index

Pourquoi un tri des déchets plus intelligent est important

Chaque fois qu’un bâtiment est construit ou démoli, des montagnes de gravats sont produites : blocs de béton, briques brisées, carreaux, bois, métal et plastique. Ces déchets de construction et de démolition représentent aujourd’hui environ 40 % des ordures dans de nombreuses villes. Cachés dans ces gravats se trouvent des matériaux précieux qui pourraient être recyclés en nouveaux produits de construction, mais aujourd’hui une grande partie du tri est encore effectuée manuellement, ce qui est lent, coûteux et dangereux. Cet article présente un nouveau système de vision par ordinateur capable de repérer et de classifier automatiquement différents types de déchets de construction en temps réel, même lorsque les pièces sont petites, se chevauchent ou se ressemblent beaucoup.

Figure 1
Figure 1.

Le défi de distinguer de l’ordre dans un tas de gravats

Le tri de débris de construction mixtes est étonnamment difficile pour les machines. Des fragments de béton et de carreaux céramiques, par exemple, partagent souvent des couleurs et des textures similaires, ce qui les rend faciles à confondre. Dans des scènes réelles, de gros fragments côtoient des éclats minuscules, de nombreux objets sont partiellement cachés, et l’éclairage ou l’angle de la caméra peuvent modifier l’apparence des matériaux. Les systèmes d’intelligence artificielle antérieurs pour cette tâche manquaient soit de précision, soit peinaient avec les très petits objets, soit exigeaient une puissance de calcul importante, irréaliste pour une utilisation sur des lignes de tri ou des équipements mobiles. Les auteurs se concentrent sur l’amélioration d’une famille populaire de modèles de détection d’objets rapides, connue sous le nom de YOLO, afin de mieux gérer ces scènes encombrées sans ralentir.

Une nouvelle façon pour le réseau d’accorder de l’attention

Le cœur de la nouvelle méthode est une « colonne vertébrale » repensée qui traite les images par étapes, inspirée des modèles de type transformeur utilisés en langage et en vision. Plutôt que de considérer l’image uniquement en petits patchs locaux, le réseau apprend comment des régions distantes se relient entre elles, ce qui aide lorsque des objets se chevauchent ou se fondent dans l’arrière-plan. Pour le faire efficacement, les auteurs introduisent un mécanisme d’attention en groupe en cascade. Ils divisent la représentation interne de l’image en groupes, laissent chaque groupe se concentrer sur des motifs en son sein, puis transmettent progressivement l’information d’un groupe au suivant. Ce schéma « focalisation locale d’abord, raffinement global ensuite » permet au modèle de mettre en évidence des différences subtiles entre, par exemple, le béton et la céramique, tout en maintenant une empreinte mémoire et un coût de calcul suffisamment bas pour une utilisation en temps réel.

Observer les déchets à plusieurs échelles en même temps

Au‑delà de la reconnaissance des types de matériaux, le système doit aussi détecter des objets de tailles très différentes, des minuscules éclats aux grandes poutres. Le modèle utilise donc plusieurs couches opérant chacune à une résolution d’image différente. Un module d’interaction dédié permet à l’information de circuler à la fois des couches grossières, qui donnent une vue d’ensemble, vers les couches fines et détaillées, et inversement. Les couches grossières apportent le contexte global — où se trouvent les tas, comment les objets se regroupent — tandis que les couches fines apportent des contours et des textures précis. Un composant d’attention spatiale met ensuite en valeur les régions les plus informatives à chaque échelle et supprime l’arrière-plan distrayant. Enfin, des branches de détection distinctes à chaque résolution prédisent l’emplacement des objets et leur matériau, avec un entraînement qui favorise un placement précis des boîtes et un compromis équilibré entre détecter de nombreux objets et éviter les fausses alertes.

Figure 2
Figure 2.

Mettre le système à l’épreuve

Pour évaluer leur approche, les chercheurs ont utilisé deux jeux de données publics de déchets de construction et de démolition. L’un, appelé BTC, contient des images de briques, carreaux et béton ; l’autre, SWP, se concentre sur l’acier, le bois et les plastiques et comprend des milliers d’images haute résolution. L’équipe a comparé sa méthode à plusieurs versions existantes des modèles YOLO adaptées à cette tâche. Leur système a obtenu des scores de détection nettement supérieurs sur les deux jeux de données, en particulier sur la mesure la plus stricte qui juge la précision de l’alignement des boîtes prédites avec les contours réels des objets. Il a été particulièrement performant pour maintenir un rappel très élevé — ne manquant presque aucun objet — tout en gardant la charge computationnelle globale modeste, concurrente ou inférieure à celle de nombreux modèles rivaux.

Ce que cela signifie pour le recyclage dans le monde réel

Pour les non‑spécialistes, l’essentiel est que les auteurs ont construit un “œil” plus intelligent pour le tri des gravats, capable d’identifier et de distinguer les matériaux recyclables dans des scènes encombrées et chaotiques mieux que les outils précédents. En combinant des mécanismes d’attention efficaces avec un traitement multi‑échelle, le système repère plus précisément les petites pièces et les éléments qui se chevauchent, tout en restant assez rapide pour être pratique sur du matériel industriel. Certaines confusions entre déchet et arrière‑plan subsistent, mais la performance globale est solide et stable à travers différents jeux de données. À long terme, de telles avancées pourraient aider les centres de recyclage à récupérer davantage de matériaux de valeur avec moins de travail manuel, réduire l’enfouissement et rendre l’industrie de la construction plus propre et plus efficiente en ressources.

Citation: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5

Mots-clés: détection des déchets de construction, vision par apprentissage profond, recyclage automatisé, détection d’objets, mécanismes d’attention