Clear Sky Science · pl

Integracja wieloskalowych konwolucji i mechanizmów uwagi w HybridHAR dla wysokowydajnego rozpoznawania aktywności człowieka

· Powrót do spisu

Dlaczego warto nauczyć komputery codziennych ruchów

Codziennie nasze telefony, zegarki i inne urządzenia dyskretnie rejestrują, jak się poruszamy — czy idziemy, wchodzimy po schodach, czy odpoczywamy na kanapie. Przekształcenie tych surowych sygnałów ruchu w wiarygodne rozumienie aktywności człowieka może zrewolucjonizować monitorowanie zdrowia, opiekę nad osobami starszymi, rehabilitację i inteligentne domy. W artykule przedstawiono HybridHAR, nowy model komputerowy zaprojektowany do dokładniejszego i bardziej efektywnego odczytywania tych sygnałów, co zbliża nas do noszalnych urządzeń potrafiących rzeczywiście rozumieć nasze działania w czasie rzeczywistym.

Figure 1
Figure 1.

Rozumienie aktywności na podstawie czujników ruchu

Rozpoznawanie aktywności człowieka polega na ustaleniu, co robi osoba, na podstawie czujników takich jak akcelerometry i żyroskopy w smartfonach i urządzeniach noszonych. Wcześniejsze systemy opierały się na eksperckim ręcznym wydobywaniu cech z tych sygnałów, a następnie przekazywaniu ich do tradycyjnych algorytmów uczenia maszynowego. Podejście to działało w kontrolowanych warunkach laboratoryjnych, ale często zawodziło w bardziej chaotycznym świecie rzeczywistym, gdzie ruchy są bardziej zróżnicowane i zaszumione. Uczenie głębokie poprawiło sytuację dzięki automatycznemu odkrywaniu wzorców w danych, jednak powszechne architektury wciąż pomijają istotne informacje rozgrywające się na różnych skalach czasowych i mogą tracić informacje w miarę pogłębiania sieci.

Dlaczego istniejące modele głębokie wciąż mają trudności

Ruchy ludzkie zachodzą jednocześnie na wielu skalach czasowych: szybkie postawienie kroku, krótki spacer przez pokój czy dłuższy okres siedzenia. Wiele modeli głębokiego uczenia koncentruje się albo na krótkich fragmentach, albo na dłuższych zakresach, ale nie radzi sobie równie dobrze z obiema perspektywami. W miarę dodawania warstw, by uchwycić bardziej złożone wzorce, sieci mogą tracić sygnały uczenia, co powoduje, że wczesne warstwy przestają się poprawiać. Niektóre modele brakuje też wsparcia dla warstw pośrednich, więc nie uczą one przydatnych, średnio-poziomowych elementów niezbędnych do rozróżnienia aktywności, które w surowych sygnałach wyglądają podobnie, na przykład siedzenia i stania.

Figure 2
Figure 2.

Projekt hybrydowy analizujący ruch na kilka sposobów

Autorzy proponują HybridHAR — starannie zaprojektowany model, który przeciwdziała tym słabościom za pomocą trzech współpracujących pomysłów. Po pierwsze, zamiast jednej perspektywy czasowej, ten sam sygnał z czujnika przechodzi przez trzy równoległe ścieżki przetwarzania, z których każda analizuje inne przedziały czasowe — od bardzo krótkich po nieco dłuższe segmenty. Ścieżki te działają jak trzy zestawy soczewek, rejestrując drobne szczegóły szybkich gestów oraz wolniejsze trendy w postawie i ruchu. Ich wyjścia są następnie łączone w bogatą, skonsolidowaną reprezentację, która zachowuje informacje ze wszystkich tych skal.

Zwracanie uwagi i prowadzenie uczenia głęboko w sieci

Po drugie, HybridHAR dodaje specjalny moduł uwagi na szczycie tej złączonej reprezentacji. Mechanizm ten uczy się wyróżniać najbardziej informacyjne fragmenty sygnału — na przykład subtelne różnice ruchu odróżniające wchodzenie po schodach od schodzenia — zachowując jednocześnie ścieżkę skrótu, która przechowuje oryginalne informacje. Ten "resztkowy" skrót wspomaga przepływ sygnałów uczenia przez sieć, zapobiegając wypłukiwaniu informacji w głębszych warstwach. Po trzecie, model otrzymuje dodatkowy pomocniczy klasyfikator, który korzysta z cech pośrednich przed zastosowaniem uwagi. Podczas treningu ten pomocniczy wyjście jest również oceniane, delikatnie wymuszając, by wcześniejsze warstwy uczyły się cech wystarczająco dobrych do już wczesnego zgadywania aktywności, co stabilizuje i przyspiesza uczenie.

Jak dobrze działa nowe podejście

Aby przetestować HybridHAR, badacze użyli szeroko stosowanego publicznego zestawu danych, w którym ochotnicy nosili smartfon podczas wykonywania sześciu podstawowych aktywności: trzech rodzajów chodzenia oraz siedzenia, stania i leżenia. Na tym benchmarku HybridHAR osiągnął około 99% dokładności na danych walidacyjnych i 96% na niewidzianym zestawie testowym, pokonując kilka silnych alternatyw, w tym klasyczne sieci konwolucyjne, sieci rekurencyjne, modele hybrydowe i podejścia oparte na uczeniu ze wzmocnieniem. Model był szczególnie skuteczny w rozróżnianiu podobnych aktywności chodzenia i zmniejszał liczbę pomyłek między mylącymi się parami, takimi jak wchodzenie i schodzenie po schodach. Zespół wykazał również, że każdy z trzech składników — ścieżki wieloskalowe, uwaga i głęboka nadzorowana nauka — mierzalnie poprawiał wyniki, i że pełny model osiąga lepsze rezultaty niż dowolna wariacja pozbawiona jednego z nich.

Dlaczego to ma znaczenie dla urządzeń w praktyce

Pomimo wysokiej dokładności, HybridHAR pozostaje kompaktowy i szybki, z wielokrotnie mniejszą liczbą regulowanych parametrów niż wiele konkurencyjnych modeli oraz możliwością przetwarzania setek okien aktywności na sekundę przy użyciu około megabajta pamięci. Dobrze uogólniał także na drugim, bardziej złożonym zestawie danych z większą liczbą aktywności i bogatszą konfiguracją czujników, gdzie osiągnął jeszcze lepsze wyniki. Dla nie‑specjalistów kluczowy wniosek jest taki, że ta konstrukcja stanowi praktyczny schemat przekształcania zaszumionych sygnałów z urządzeń noszonych w wiarygodne, szczegółowe opisy tego, co ludzie robią. Takie modele mogą uczynić przyszłe monitory zdrowia, inteligentne domy i systemy bezpieczeństwa zarówno bardziej niezawodnymi, jak i łatwiejszymi do uruchomienia na codziennych urządzeniach.

Cytowanie: Huo, Y., Wei, C., Xu, Z. et al. Integrating multi-scale convolution and attention mechanisms in HybridHAR for high-performance human activity recognition. Sci Rep 16, 10143 (2026). https://doi.org/10.1038/s41598-026-40904-w

Słowa kluczowe: rozpoznawanie aktywności człowieka, czujniki noszone, uczenie głębokie, mechanizmy uwagi, monitorowanie zdrowia