Clear Sky Science · sv
En objektigenkänningsalgoritm för bygg- och rivningsavfall baserad på kaskaderad gruppuppmärksamhetsmekanism
Varför smartare avfallssortering spelar roll
Varje gång en byggnad reser sig eller rivas skapas berg av skräp—betongbitar, trasiga tegelstenar, plattor, trä, metall och plast. Detta bygg- och rivningsavfall står nu för omkring 40 % av avfallet i många städer. Dolda i rasmassorna finns värdefulla material som skulle kunna återvinnas till nya byggprodukter, men i dag utförs mycket av sorteringen fortfarande för hand, vilket är långsamt, kostsamt och farligt. Denna artikel presenterar ett nytt datorvisionssystem som automatiskt kan upptäcka och klassificera olika typer av byggavfall i realtid, även när bitarna är små, överlappar varandra eller liknar varandra mycket.

Utmaningen att urskilja ordning i en hög med skrot
Att sortera blandat byggavfall är förvånansvärt svårt för maskiner. Bitarsbetong och keramiska plattor, till exempel, har ofta liknande färger och texturer, vilket gör dem enkla att förväxla. I verkliga scenarier ligger stora fragment tätt intill små skärvor, många objekt är delvis dolda, och ljusförhållanden eller kameravinkel kan förändra hur material ser ut. Tidigare AI-system för denna uppgift saknade antingen noggrannhet, hade svårt med mycket små föremål eller krävde stor beräkningskraft som är orealistisk för användning på sorteringsband och mobila maskiner. Författarna fokuserar på att förbättra en populär familj snabba objektigenkänningsmodeller, känd som YOLO, för att bättre hantera dessa röriga, trånga scener utan att bli långsammare.
En ny metod för nätverkets uppmärksamhet
Kärnan i den nya metoden är en omformad “backbone” som bearbetar bilder i steg, inspirerad av transformer-modeller som används inom språk och vision. Istället för att bara behandla bilden i små lokala patchar lär sig nätverket hur avlägsna regioner relaterar till varandra, vilket hjälper när objekt överlappar eller smälter ihop med bakgrunden. För att göra detta effektivt introducerar författarna en kaskaderad gruppuppmärksamhetsmekanism. De delar upp bildens interna representation i grupper, låter varje grupp fokusera på mönster inom sig och överför sedan gradvis information från en grupp till nästa. Denna strategi med “lokalt fokus först, global förfining senare” gör det möjligt för modellen att betona subtila skillnader mellan till exempel betong och keramik, samtidigt som minne och beräkning hålls låga nog för realtidsbruk.
Att se avfallet i flera skalor samtidigt
Utöver att känna igen materialtyper måste systemet också hitta objekt i mycket olika storlekar, från små skärvor till stora balkar. Modellen använder därför flera lager som var och en arbetar på olika bildresolutioner. Ett dedikerat interaktionsmodul tillåter informationsflöde både från grova, överblickslager ner till fina, detaljlager och tillbaka igen. Grova lager bidrar med övergripande kontext—var högar finns, hur objekt klustras—medan fina lager bidrar med skarpa kanter och texturer. En spatial uppmärksamhetskomponent framhäver sedan de mest informativa regionerna på varje skala och undertrycker störande bakgrund. Slutligen förutsäger separata detektionsgrenar vid varje upplösning var objekt är och vilket material de tillhör, med en träningsinställning som uppmuntrar precis ruta-placering och balanserade avvägningar mellan att hitta många objekt och att undvika falsklarm.

Sätta systemet på prov
För att utvärdera sin metod använde forskarna två publika dataset med bygg- och rivningsavfall. Ett, kallat BTC, innehåller bilder av tegel, plattor och betong; det andra, SWP, fokuserar på stål, trä och plast och innehåller tusentals högupplösta bilder. Teamet jämförde sin metod med flera befintliga versioner av YOLO-modeller som anpassats för denna uppgift. Deras system uppnådde markant högre detektionspoäng på båda datasetten, särskilt på den svårare mätningen som bedömer hur precist de förutsagda rutorna stämmer överens med de verkliga objektkonturerna. Det var särskilt starkt på att bibehålla mycket hög recall—missade nästan inga objekt—samtidigt som den totala beräkningsbelastningen hölls modest, konkurrenskraftig med eller lägre än många rivalmodeller.
Vad detta betyder för verklig återvinning
För icke-specialister är huvudpoängen att författarna byggt ett smartare “öga” för sortering av byggavfall, ett som kan plocka ut och särskilja återvinningsbara material i hektiska, kaotiska scener bättre än tidigare verktyg. Genom att kombinera effektiva uppmärksamhetsmekanismer med flerskalig bearbetning hittar systemet små och överlappande bitar mer exakt, samtidigt som det fortfarande körs tillräckligt snabbt för att vara praktiskt på industriell hårdvara. Viss förväxling mellan avfall och bakgrund återstår, men den övergripande prestandan är stark och stabil över olika dataset. På längre sikt skulle sådana framsteg kunna hjälpa återvinningsanläggningar att återvinna mer värdefullt material med mindre manuellt arbete, minska deponianvändning och göra byggindustrin renare och mer resurseffektiv.
Citering: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5
Nyckelord: detektion av byggavfall, djupinlärningsvision, automatiserad återvinning, objektigenkänning, uppmärksamhetsmekanismer