Clear Sky Science · pl

Algorytm wykrywania obiektów oparty na kaskadowym mechanizmie grupowej uwagi dla odpadów budowlanych i rozbiórkowych

· Powrót do spisu

Dlaczego inteligentniejsze sortowanie odpadów ma znaczenie

Za każdym razem, gdy powstaje lub jest rozbierany budynek, powstają góry gruzu — kawałki betonu, połamane cegły, płytki, drewno, metal i plastik. Odpady budowlane i rozbiórkowe stanowią dziś w wielu miastach około 40% śmieci. W tym gruzie ukryte są cenne materiały, które można by poddać recyklingowi i przetworzyć na nowe produkty budowlane, ale dziś dużo sortowania odbywa się ręcznie, co jest powolne, kosztowne i niebezpieczne. W artykule przedstawiono nowy system widzenia komputerowego, który potrafi automatycznie wykrywać i klasyfikować różne rodzaje odpadów budowlanych w czasie rzeczywistym, nawet gdy fragmenty są małe, nakładają się na siebie lub bardzo do siebie podobne.

Figure 1
Figure 1.

Trudność w dostrzeżeniu porządku w stercie gruzu

Sortowanie mieszanego gruzu budowlanego jest zaskakująco trudne dla maszyn. Kawałki betonu i ceramiki na przykład często mają podobne kolory i faktury, co łatwo prowadzi do pomyłek. W rzeczywistych scenach duże fragmenty znajdują się obok drobnych odłamków, wiele obiektów jest częściowo zasłoniętych, a oświetlenie lub kąt kamery mogą zmieniać wygląd materiałów. Wcześniejsze systemy sztucznej inteligencji do tego zadania albo nie osiągały wystarczającej dokładności, miały problemy z bardzo małymi elementami, albo wymagały dużej mocy obliczeniowej niewykonalnej na liniach sortowania czy sprzęcie mobilnym. Autorzy skupili się na usprawnieniu popularnej rodziny szybkich modeli wykrywania obiektów, znanej jako YOLO, aby lepiej radziła sobie w takich zabałaganionych, zatłoczonych scenach bez spowolnienia działania.

Nowy sposób, w jaki sieć przykuwa uwagę

Sednem nowej metody jest przeprojektowany „backbone”, który przetwarza obrazy etapami, inspirowany modelami transformerowymi stosowanymi w języku i wizji. Zamiast traktować obraz tylko jako drobne lokalne fragmenty, sieć uczy się, jak odległe regiony się ze sobą wiążą, co pomaga, gdy obiekty nakładają się na siebie lub zlewają z tłem. Aby zrobić to wydajnie, autorzy wprowadzają kaskadowy mechanizm grupowej uwagi. Dzielą wewnętrzną reprezentację obrazu na grupy, każdej grupie pozwalają skupić się na wzorcach wewnątrz niej, a następnie stopniowo przekazują informacje z jednej grupy do następnej. Schemat „najpierw lokalne skupienie, potem globalne dopracowanie” pozwala modelowi uwypuklić subtelne różnice między np. betonem a ceramiką, przy jednoczesnym utrzymaniu pamięci i obliczeń na poziomie wystarczająco niskim do pracy w czasie rzeczywistym.

Analiza odpadów na kilku skalach jednocześnie

Ponieżej rozpoznawania typów materiałów, system musi także odnajdywać obiekty o bardzo różnych rozmiarach, od drobnych odłamków po duże belki. Model wykorzystuje więc wiele warstw działających na różnych rozdzielczościach obrazu. Dedykowany moduł interakcji pozwala na przepływ informacji zarówno z warstw o niskiej rozdzielczości (szerszy obraz) do warstw szczegółowych, jak i w odwrotnym kierunku. Warstwy „grubego” poziomu dostarczają ogólnego kontekstu — gdzie znajdują się hałdy, jak obiekty się grupują — natomiast warstwy „drobne” dostarczają ostre krawędzie i tekstury. Składnik uwagi przestrzennej następnie wyróżnia najbardziej informacyjne obszary na każdej skali i tłumi rozpraszające tło. Wreszcie oddzielne gałęzie detekcji dla każdej rozdzielczości przewidują położenie obiektów i ich przynależność materiałową, przy konfiguracji treningu, która promuje precyzyjne umieszczanie ramek i zrównoważone kompromisy między wykrywaniem wielu obiektów a unikaniem fałszywych alarmów.

Figure 2
Figure 2.

Testowanie systemu

Aby ocenić swoje podejście, badacze użyli dwóch publicznych zbiorów danych dotyczących odpadów budowlanych i rozbiórkowych. Jeden, nazwany BTC, zawiera obrazy cegieł, płytek i betonu; drugi, SWP, skupia się na stali, drewnie i tworzywach sztucznych i obejmuje tysiące obrazów o wysokiej rozdzielczości. Zespół porównał swoją metodę z kilkoma istniejącymi wariantami modeli YOLO przystosowanymi do tego zadania. Ich system osiągnął wyraźnie wyższe wyniki detekcji na obu zbiorach, szczególnie w trudniejszym mierniku oceniającym, jak precyzyjnie przewidywane ramki pokrywają się z rzeczywistymi obrysami obiektów. Był szczególnie silny w utrzymywaniu bardzo wysokiego odzysku (recall) — niemal nie pomijał obiektów — przy jednoczesnym umiarkowanym obciążeniu obliczeniowym, konkurencyjnym lub niższym niż wiele rywalizujących modeli.

Co to oznacza dla rzeczywistego recyklingu

Dla osób niebędących specjalistami kluczowy wniosek jest taki, że autorzy zbudowali inteligentniejsze „oko” do sortowania gruzu budowlanego, które lepiej niż wcześniejsze narzędzia potrafi wyłuskać i rozróżniać materiały nadające się do recyklingu w zatłoczonych, chaotycznych scenach. Poprzez połączenie efektywnych mechanizmów uwagi z przetwarzaniem wieloskalowym, system dokładniej wykrywa małe i nachodzące na siebie elementy, a jednocześnie działa wystarczająco szybko, by być praktycznym na sprzęcie przemysłowym. Niektóre pomyłki między odpadami a tłem wciąż się zdarzają, ale ogólna wydajność jest mocna i stabilna w różnych zbiorach danych. W dłuższej perspektywie takie postępy mogłyby pomóc zakładom recyklingowym odzyskiwać więcej cennych materiałów przy mniejszym udziale pracy ręcznej, zmniejszać ilość odpadów trafiających na składowiska i uczynić przemysł budowlany czystszym oraz bardziej efektywnym pod względem zasobów.

Cytowanie: Jiang, Z., Yang, Y., Hu, J. et al. A cascaded group attention mechanism-based object detection algorithm for construction and demolition waste. Sci Rep 16, 11798 (2026). https://doi.org/10.1038/s41598-026-41557-5

Słowa kluczowe: wykrywanie odpadów budowlanych, wizja komputerowa w uczeniu głębokim, automatyczne recykling, wykrywanie obiektów, mechanizmy uwagi