Clear Sky Science · pl

Interprelowalna i lekka detekcja upadków w galerii zabytków z użyciem YOLOv11-SEFA dla wdrożeń na krawędzi

2026-02-08 · Powrót do spisu

Dlaczego bezpieczeństwo w galerii ma znaczenie

W miarę jak społeczeństwa się starzeją, coraz więcej starszych osób odwiedza muzea i galerie zabytków — piękne przestrzenie, które nie były projektowane z myślą o nowoczesnym monitoringu. Prosty upadek w takich miejscach może prowadzić do poważnych obrażeń, a instalowanie nowych czujników czy ciągłe monitorowanie nagrań jest kosztowne, inwazyjne i często niepraktyczne. W artykule badano nowy sposób automatycznego i szybkiego wykrywania upadków w takich przestrzeniach, wykorzystując kompaktową sztuczną inteligencję działającą blisko kamer, bez zalewania sieci wideo czy naruszania prywatności odwiedzających.

Trudne miejsce do obserwacji

Galeria Rochfort w North Sydney, odrestaurowany budynek z lat 20. XX wieku z wysokimi sufitami, ozdobnymi wykończeniami, lśniącymi podłogami i gablotami ze szkła, była polem testowym tej pracy. Te cechy sprawiają, że przestrzeń jest atrakcyjna wizualnie dla odwiedzających, ale trudna dla maszyn: światło odbija się od szkła, cienie zmieniają się w ciągu dnia, a tłumy przychodzą i odchodzą. Zasady ochrony zabytków ograniczają też wiercenie, okablowanie i montowanie ciężkiego sprzętu. Autorzy argumentują, że system wykrywania upadków w takim miejscu musi być kompaktowy, energooszczędny i respektujący prywatność, a jednocześnie wystarczająco niezawodny, by wspierać personel w ochronie podatnych odwiedzających.

Nauczanie komputerów, jak wygląda upadek

Aby wytrenować system, zespół nie polegał na małym, inscenizowanym zbiorze danych. Zamiast tego rozszerzyli istniejącą kolekcję obrazów o tysiące dodatkowych fotografii wykonanych w muzeach, galeriach i ośrodkach społecznych. Każde zdjęcie było oznaczone jako normalna postawa (np. stanie lub chodzenie) lub postawa upadkowa (leżenie na podłodze w różnych orientacjach) i wykonane z różnych kątów — z sufitu, z boku i na poziomie oczu — w warunkach od pełnego światła dziennego po przyćmione, oświetlone punktowo sale. Celowo uwzględniono też sceny z częściowym zasłonięciem przez meble lub innych odwiedzających, a także tłumy, by odzwierciedlić bałagan i zamieszanie typowe dla prawdziwych przestrzeni publicznych.

Lekki inteligentny obserwator na krawędzi

Rdzeniem systemu jest uproszczona sieć detekcji obiektów o nazwie YOLOv11-SEFA, która analizuje każdą klatkę z kamery i decyduje, czy ktoś upadł. Zamiast budować cięższy i bardziej złożony model, autorzy dodali dwie ukierunkowane modyfikacje do istniejącego szybkiego detektora, tak aby zwracał szczególną uwagę na małe lub częściowo ukryte ciała oraz na obszary, gdzie osoba styka się z podłogą. Zwiększa to zarówno odsetek prawdziwych upadków wykrywanych przez system, jak i dokładność ram ograniczających, przy jednoczesnym utrzymaniu niskiego zużycia obliczeniowego, co pozwala uruchomić go na skromnych komputerach „na krawędzi” zainstalowanych w budynku. Testy z kilkoma popularnymi alternatywami pokazują, że dostrojony model oferuje jedno z najlepszych kompromisów między dokładnością a prędkością, przy jedynie niewielkim wzroście zapotrzebowania na moc obliczeniową w porównaniu z modelem wyjściowym.

Od prostych alarmów do oceny stopnia ryzyka

Zamiast ograniczać się do „upadek” lub „brak upadku”, system idzie dalej i przypisuje każdemu wykrytemu zdarzeniu poziom ryzyka od 0 do 3. Robi to, konwertując wykrycie wizualne na sześć prostych liczb: jak dużą część obrazu zajmuje osoba, jak bardzo jest przechylona, jak daleko wydaje się być od kamery, jak rozciągnięty lub spłaszczony jest jej zarys, jak wizualnie zajęte jest otoczenie oraz ile innych osób jest obecnych. Osobny model decyzyjny, inspirowany opiniami ekspertów ds. bezpieczeństwa, łączy te wartości w cztery pasma: normalna aktywność, niskie ryzyko (nietypowa postawa), średnio-wysokie ryzyko i oczywiste, wysokie ryzyko upadku. Co ważne, autorzy używają narzędzia wyjaśniającego, aby potwierdzić, że model rzeczywiście opiera się głównie na wskazówkach związanych z postawą, takich jak nachylenie ciała i jego kształt, a nie na nieistotnych detalach tła.

Testy w prawdziwej galerii

Kompletny system łączy kamery, lokalne komputery brzegowe i usługę w chmurze w czterowarstwową pipeline. Kamery przesyłają wideo o zredukowanej częstotliwości do kompaktowych maszyn na tym samym piętrze, które uruchamiają detektor upadków i generują alerty; tylko krótkie fragmenty lub nakładki map cieplnych są wysyłane do chmury w razie potrzeby, ograniczając zarówno pasmo, jak i naruszenie prywatności. W 72-godzinnym pilotażu w Galerii Rochfort system utrzymywał czasy reakcji rzędu około ćwierć sekundy nawet w zatłoczonych scenach i generował mniej niż pół fałszywego alarmu na godzinę w godzinach szczytu — głównie z powodu odwiedzających kucających, by zrobić zdjęcia — podczas gdy inscenizowane upadki zostały wykryte wszystkie. Autorzy podkreślają, że te liczby pochodzą z relatywnie krótkiego, kontrolowanego testu, ale pokazują, że podejście jest technicznie wykonalne w wymagającym, rzeczywistym środowisku.

Co to oznacza dla przyszłych przestrzeni publicznych

Dla osób niebędących ekspertami kluczowy wniosek jest taki, że obecnie możliwe jest dodanie automatycznej, ocenianej warstwy ostrzegania przed upadkiem do istniejących systemów kamer w historycznych galeriach i podobnych budynkach publicznych bez konieczności gruntownej przebudowy czy ciągłego nadzoru ludzkiego. Uruchamiając wydajny detektor na niewielkich komputerach lokalnych i starannie strukturyzując sposób interpretacji oraz udostępniania wyników, system daje wstępne dowody, że technologia może dyskretnie czuwać w tle — wykrywając prawdopodobne upadki, wskazując na ich możliwe nasilenie i robiąc to przy skromnym sprzęcie oraz z uwzględnieniem prywatności. Potrzebne będą szersze i dłuższe testy oraz rozszerzenia na inne typy budynków, zanim rozwiązanie można będzie rozważać jako standard bezpieczeństwa na skalę miejską, ale praca ta wyznacza jasną, praktyczną ścieżkę w tym kierunku.

Cytowanie: Wu, S., Yang, H., Hu, Y. et al. Interpretable and lightweight fall detection in a heritage gallery using YOLOv11-SEFA for edge deployment. Sci Rep 16, 7795 (2026). https://doi.org/10.1038/s41598-026-39527-y

Słowa kluczowe: detekcja upadków, inteligentne galerie, edge AI, bezpieczeństwo osób starszych, widzenie komputerowe