Clear Sky Science · pl
Domain-adaptacyjne Faster R-CNN do identyfikacji braku ŚOI na budowach na podstawie obrazów z kamer noszonych na ciele i ogólnych zdjęć
Dlaczego brak sprzętu ochronnego nadal uchodzi na sucho
Kaski, kamizelki, maski, rękawice i solidne buty powinny być obowiązkowe na budowach, a jednak zdarzają się zaniedbania — i mogą mieć śmiertelne konsekwencje. Coraz więcej projektów korzysta z kamer i sztucznej inteligencji, by wykrywać pracowników bez wymaganego wyposażenia, ale takie systemy mają trudności, ponieważ prawdziwe wykroczenia są rzadkie i trudno je uchwycić na nagraniach. Badanie przedstawia sposób trenowania bardziej inteligentnych systemów detekcji poprzez wykorzystanie przykładów z codziennych zdjęć ulicznych, co pozwala na niezawodniejsze automatyczne kontrole bezpieczeństwa bez konieczności czekania na wypadki lub naruszenia.
Przekształcanie zwykłych zdjęć w lekcje BHP
Główna idea jest prosta: osoby w przestrzeniach publicznych lub biurach rzadko noszą sprzęt budowlany, więc zdjęcia z takich miejsc zawierają wiele przykładów tego, „czego nie powinno się nosić” na placu budowy. Problem w tym, że te sceny wyglądają bardzo inaczej niż rzeczywista praca budowlana — tło, oświetlenie i kąty kamery wpływają na wygląd ludzi. Autor traktuje te dwa światy jako różne „domeny”: domenę źródłową z obfitymi przykładami braku ŚOI w ogólnych obrazach oraz domenę docelową z mniejszą, ale bardziej realistyczną liczbą zdjęć z budów, wiele z nich zarejestrowanych kamerami montowanymi na kaskach pracowników. Praca pokazuje, że dzięki starannemu wyrównaniu tego, czego komputer uczy się z obu domen, system może znacznie dokładniej wykrywać brak sprzętu na rzeczywistych placach budowy niż gdyby trenowano go wyłącznie na danych budowlanych.

Jak nowy kontroler bezpieczeństwa widzi scenę
Badanie opiera się na popularnym systemie detekcji obiektów Faster R‑CNN, który skanuje obraz, proponuje regiony mogące zawierać ludzi lub części ciała, a następnie klasyfikuje zawartość każdego pola. W tym przypadku detektor jest trenowany do rozpoznawania pięciu rodzajów braków sprzętu: brak kasku, brak maski, brak rękawic, brak kamizelki i brak odpowiednich butów. Zanim obrazy trafią do modelu, są silnie augmentowane — rozjaśniane lub przyciemniane, obracane, rozmywane i zniekształcane — aby naśladować drżące kamery, ostre światło i niewygodne kąty, które są powszechne na ruchliwych placach budowy. Ta syntetyczna różnorodność pomaga modelowi zachować stabilność, gdy materiał z rzeczywistego świata jest daleki od perfekcji, co zdarza się często przy nagraniach z kamer noszonych na ciele.
Nauka systemu ignorowania tła
Proste mieszanie zdjęć ulicznych ze zdjęciami z budowy nie wystarcza; model mógłby skojarzyć brak sprzętu z miejskim chodnikiem zamiast z samymi ludźmi. Aby temu zapobiec, badanie wprowadza moduły „adaptacji domeny”, które delikatnie kierują system, by skupiał się na ludziach i odzieży zamiast na otoczeniu. Jeden moduł analizuje obraz w całości, nakłaniając sieć, aby zdjęcia z budowy i spoza niej generowały podobne ogólne wzorce, mimo różnic w oświetleniu czy wyposażeniu. Inny działa na poziomie każdej wykrytej osoby, upewniając się, że wizualny sygnatura na przykład odkrytej głowy wygląda podobnie, czy pojawia się na rusztowaniu, czy na ulicy handlowej. Moduły te są trenowane w sposób adwersarialny: mały klasyfikator próbuje rozpoznać, z której domeny pochodzi obraz, podczas gdy główna sieć uczy się ukrywać tę informację, utrzymując fokus na sprzęcie ochronnym.

Sprawdzanie metody w praktyce
Autor zebrał obszerny zbiór danych, łącząc nagrania z kamer noszonych na ciele z pięciu placów budowy w Korei Południowej z kilkoma publicznymi kolekcjami obrazów. Po ręcznym oznaczeniu każdego przypadku braku kasków, masek, rękawic, kamizelek i butów ochronnych, badanie wytrenowało setki modeli z różnymi szkieletami sieci neuronowych i ustawieniami parametrów. Najlepszy wynik osiągnął głęboki model ResNet‑152 razem ze silną augmentacją obrazu i modułami adaptacji domeny. Na wcześniej nieznanych zdjęciach z budów to ustawienie uzyskało mean Average Precision — ogólny wskaźnik jakości detekcji — na poziomie około 86,8 procent, przy jednoczesnym działaniu z prędkością około 33 klatek na sekundę, co wystarcza do monitoringu w przybliżonym czasie rzeczywistym. W porównaniu z bardziej konwencjonalnymi systemami nadzorowanymi model z adaptacją poprawił dokładność o do 14 punktów procentowych, a w porównaniu z prostszą metodą bazową nawet o 39 punktów.
Co to znaczy dla bezpieczniejszych placów budowy
Dla osób niebędących specjalistami kluczowy wniosek jest taki, że inteligentniejsze metody treningu, a nie tylko większe zbiory danych, mogą uczynić automatyczny monitoring bezpieczeństwa znacznie bardziej niezawodnym. Poprzez uczenie się zarówno na podstawie codziennych zdjęć, jak i rzeczywistych materiałów z budów, oraz ucząc system ignorowania nieistotnych szczegółów tła, proponowane podejście z dużą niezawodnością wykrywa brak kasków, kamizelek, rękawic, masek i butów ochronnych, nawet gdy prawdziwe naruszenia są rzadkie. Choć obecna praca koncentruje się na pięciu rodzajach sprzętu i jednym głównym zbiorze danych budowlanych, daje praktyczny plan działania dla przyszłych systemów, które mogłyby śledzić również uprzęże, liny i inne wyposażenie bezpieczeństwa na wielu placach, pomagając nadzorcom wykrywać problemy wcześnie i zwiększać bezpieczeństwo pracowników bez konieczności nieustannego wpatrywania się w ekrany.
Cytowanie: Wang, S. Domain-adaptive faster R-CNN for non-PPE identification on construction sites from body-worn and general images. Sci Rep 16, 4793 (2026). https://doi.org/10.1038/s41598-026-35148-7
Słowa kluczowe: bezpieczeństwo na budowie, środki ochrony indywidualnej, widzenie komputerowe, adaptacja domeny, detekcja obiektów