Clear Sky Science · pl

Lekka metoda oparta na YOLOv8n do wykrywania nietypowych pozycji człowieka

2026-02-04 · Powrót do spisu

Dlaczego wykrywanie nietypowych pozycji ciała ma znaczenie

Upadki, nagły ból w klatce piersiowej czy zasłabnięcie na korytarzu często rozgrywają się w ciągu kilku sekund, a jeśli nikt nie znajduje się w pobliżu, pomoc może nadejść za późno. Artykuł przedstawia kompaktowy system sztucznej inteligencji, który potrafi analizować zwykły materiał wideo z kamer monitoringu lub placówek opiekuńczych i w czasie rzeczywistym automatycznie wykrywać niebezpieczne, nietypowe postawy. Poprzez połączenie dokładności z niskimi wymaganiami obliczeniowymi, badacze dążą do udostępnienia niezawodnego wykrywania upadków i incydentów zdrowotnych na codziennych urządzeniach — od monitorów szpitalnych po tanie kamery w domach osób starszych.

Od prostych kamer do inteligentniejszego nadzoru

Współczesne systemy monitoringu już korzystają z widzenia komputerowego do wykrywania osób i śledzenia ich ruchu, jednak nietypowe postawy są szczególnie trudne do rozpoznania. Osoba może wyglądać bardzo inaczej stojąc, chwytając się za klatkę piersiową, wymiotując lub leżąc na podłodze — zdarzenia te są krótkie, zróżnicowane i często częściowo zasłonięte meblami lub słabym oświetleniem. Istniejące algorytmy mogą być dokładne, lecz bywają ciężkie i wolne, wymagając mocnego sprzętu i starannej kalibracji. Autorzy koncentrują się na tym, by detekcja była zarazem szybka i oszczędna pod względem zasobów, tak by mogła działać na typowych kartach graficznych lub nawet urządzeniach wbudowanych, nie tracąc przy tym niezawodności.

Lżejszy „mózg” do rozpoznawania ryzykownych poz

Rdzeniem pracy jest ulepszona wersja popularnego modelu detekcji obiektów o nazwie YOLOv8n. Badacze zbudowali lżejszy, bardziej ukierunkowany wariant, który nazwali PSD‑YOLOv8n. Po pierwsze, dodali nowy moduł uwagi PoseMSA, który pomaga sieci koncentrować się na najbardziej informatywnych częściach ciała osoby, ignorując jednocześnie zagracone tło. Moduł ten wykorzystuje uproszczone operacje przypominające spojrzenie zarówno w poprzek obrazu, jak i przez różne warstwy cech, wzmacniając sygnały istotne dla postawy przy jednoczesnym ograniczeniu liczby obliczeń. Po drugie, przeprojektowali sposób, w jaki model „powiększa” szczegóły, stosując blok KA‑Sample do upsamplingu, który uczy się wyostrzać obszary wokół kluczowych punktów ciała — takich jak głowa, tułów i kończyny — dzięki czemu skręcone lub złożone pozycje są wyraźniejsze.

Bardziej precyzyjne ramki i jaśniejsze decyzje

Zauważywszy, że nietypowe postawy często zlewają się z otoczeniem — pomyśl o osobie porozciąganej częściowo pod stołem — autorzy przebudowali także etap końcowy decydowania, znany jako detekcyjna głowa. Ich moduł Detect‑PSA łączy informacje z różnych skal i stosuje probabilistyczne podejście do wyznaczania ramek ograniczających. Zamiast ustalać jeden twardy krawędź, system reprezentuje każdą stronę ramki jako mały rozkład możliwych pozycji, a następnie uśrednia je. Takie podejście stabilizuje kontury, gdy kończyny są skrócone perspektywicznie, zasłonięte lub rozciągnięte wzdłuż podłogi, prowadząc do ramek lepiej pasujących do ręcznie oznaczonych danych w trudnych scenach.

Testy systemu

Aby sprawdzić praktyczną skuteczność projektu, zespół stworzył dedykowany zbiór obrazów SSHDataset, zbudowany z wielokątowych nagrań wewnętrznych przedstawiających osoby w czterech stanach: normalnym, bólu w klatce piersiowej, wymiotów i upadku. Po starannym ręcznym oznakowaniu i augmentacji danych przeszkolono PSD‑YOLOv8n oraz szereg konkurencyjnych modeli w identycznych warunkach. Na standardowych miarach dokładności metoda osiągnęła wynik detekcji 97,8% przy powszechnie stosowanym progu nakładania się i utrzymała silne wyniki nawet przy surowszych kryteriach. Jednocześnie używała tylko około dwóch milionów parametrów i pliku wag o rozmiarze 4,5 megabajta — to mniej więcej o jedną trzecią mniej parametrów i ponad jedną trzecią mniejsze obciążenie obliczeniowe niż oryginalny YOLOv8n — a działała z prędkością ponad 80 kl./s. Testy na niezależnym publicznym zbiorze do wykrywania upadków wykazały, że zyski przenoszą się na nowe dane, ze szczególnie wyraźną poprawą w wykrywaniu rzeczywistych upadków.

Co to oznacza dla codziennego bezpieczeństwa

Mówiąc wprost, badanie dostarcza kompaktowego cyfrowego „ratownika”, który może obserwować materiał na żywo i wiarygodnie wykrywać, kiedy pozycja ciała sygnalizuje problem. Poprzez przemyślaną przebudowę sposobu, w jaki model skupia się na partiach ciała, odbudowuje drobne szczegóły i rysuje ramki wokół osób, autorzy osiągnęli rzadkie połączenie wysokiej dokładności, szybkości i niewielkiego rozmiaru. Taki system można by osadzić w monitorach szpitalnych, centrach sterowania inteligentnego domu lub kamerach w przestrzeniach publicznych, aby uruchamiać szybkie alerty o upadkach lub nagłym pogorszeniu stanu, nawet w zagraconych pomieszczeniach i przy zmiennym oświetleniu. W miarę dalszego udoskonalania podejścia i rozszerzania go na dłuższe sekwencje wideo oraz nowe środowiska, może stać się podstawą nowej generacji dyskretnych, ciągłych strażników, którzy pomagają chronić osoby wrażliwe bez potrzeby stałego nadzoru człowieka.

Cytowanie: Li, G., Zhang, J., Ji, Q. et al. A lightweight YOLOv8n-based method for human abnormal posture detection. Sci Rep 16, 7222 (2026). https://doi.org/10.1038/s41598-026-37903-2

Słowa kluczowe: wykrywanie upadków, postawa człowieka, widzenie komputerowe, lekka sztuczna inteligencja, opieka nad osobami starszymi