Clear Sky Science · sv

Integrering av fler- skaliga konvolutioner och uppmärksamhetsmekanismer i HybridHAR för högpresterande igenkänning av mänsklig aktivitet

· Tillbaka till index

Varför det är viktigt att lära datorer vardagsrörelser

Varje dag registrerar våra telefoner, klockor och andra prylar tyst hur vi rör oss—om vi går, går i trappor eller vilar i soffan. Att omvandla dessa råa rörelsesignaler till en tillförlitlig förståelse av mänsklig aktivitet kan förändra hälsoövervakning, äldreomsorg, rehabilitering och smarta hem. I denna artikel presenteras HybridHAR, en ny modell framtagen för att tolka sådana signaler mer exakt och effektivt, och därmed föra oss närmare bärbara enheter som faktiskt kan förstå vad vi gör i realtid.

Figure 1
Figure 1.

Att förstå aktivitet från rörelsesensorer

Igenkänning av mänsklig aktivitet handlar om att ta reda på vad en person gör baserat på sensorer som accelerometrar och gyroskop i smartphones och bärbara enheter. Tidigare system förlitade sig på experter som handbyggde funktioner från dessa signaler och sedan matade dem till traditionella maskininlärningsalgoritmer. Den metoden fungerade i kontrollerade laboratoriemiljöer men föll ofta isär i den stökigare verkligheten, där rörelser är mer varierade och brusiga. Djupinlärning har förbättrat situationen genom att automatiskt upptäcka mönster i data, men vanliga arkitekturer missar fortfarande viktiga detaljer som utvecklas över olika tidsskalaer och kan tappa information när nätverk blir djupare.

Varför befintliga djupa modeller fortfarande har problem

Mänskliga rörelser sker på många tidsskalaer samtidigt: ett snabbt steg, en kort promenad över rummet eller en lång period av sittande. Många djupinlärningsmodeller fokuserar antingen på korta fragment eller längre intervall, men inte båda lika bra. När nätverk lägger till fler lager för att fånga komplexa mönster kan de drabbas av att inlärningssignaler försvagas, vilket gör att tidiga lager slutar förbättras. Vissa modeller saknar också vägledning för sina interna lager, så att de inte lär sig de mest användbara mellanliggande byggstenarna för att känna igen aktiviteter som ser lika ut i de råa signalerna, till exempel sittande kontra stående.

Figure 2
Figure 2.

En hybriddesign som betraktar rörelse på flera sätt

Författarna föreslår HybridHAR, en noggrant konstruerad modell som angriper dessa svagheter med tre huvudidéer som samverkar. För det första, istället för att använda en enda tidsvy, skickas samma sensorsignal genom tre parallella bearbetningsvägar som var och en betraktar olika tidsspann—från mycket korta till något längre segment. Dessa vägar fungerar som tre uppsättningar linser som fångar både fina detaljer i snabba gester och långsammare trender i hållning och rörelse. Deras utgångar blandas sedan till en rik, kombinerad representation som bevarar information från alla dessa skalor.

Att uppmärksamma och styra inlärning djupt i modellen

För det andra lägger HybridHAR till en särskild uppmärksamhetsmodul ovanpå denna sammansatta representation. Denna mekanism lär sig att framhäva de mest talande delarna av signalen—till exempel de små skillnader i rörelse som skiljer på att gå uppför och nerför trappor—samtidigt som en genväg behålls för att bevara ursprunglig information. Denna "residuala" genväg hjälper inlärningssignaler att flöda smidigt genom nätverket och förhindrar att information sköljs ut i djupare lager. För det tredje ges modellen en extra hjälpkonstruktör (klassificerare) som ansluter till mellanliggande funktioner innan uppmärksamheten tillämpas. Under träning graderas även denna hjälpande utgång, vilket försiktigt tvingar tidigare lager att lära sig funktioner som redan är tillräckligt bra för att göra aktivitetsgissningar, vilket stabiliserar och påskyndar inlärningen.

Hur bra den nya metoden presterar

För att testa HybridHAR använde forskarna en allmänt använd offentlig datamängd där frivilliga bar en smartphone medan de utförde sex grundläggande aktiviteter: tre typer av gång samt sittande, stående och liggande. På denna benchmark nådde HybridHAR omkring 99% noggrannhet på valideringsdata och 96% noggrannhet på ett osett testset, och slog flera starka alternativ, inklusive klassiska konvolutionsnätverk, rekurrenta nätverk, hybrida modeller och metoder baserade på förstärkningsinlärning. Modellen var särskilt stark på att skilja åt liknande gångaktiviteter och minskade fel mellan förväxlingsbara par som att gå uppför och nerför trappor. Teamet visade också att var och en av de tre ingredienserna—fler- skaliga vägar, uppmärksamhet och djup handledning—mätbart förbättrade resultaten, och att fullständig modell presterade bättre än någon variant som saknade en av dem.

Varför detta betyder något för verkliga enheter

Trots sin höga noggrannhet förblir HybridHAR kompakt och snabb, med betydligt färre justerbara parametrar än många konkurrerande modeller och förmågan att bearbeta hundratals aktivitetsfönster per sekund medan den använder cirka en megabyte minne. Den generaliserade också väl till en andra, mer komplex datamängd med fler aktiviteter och rikare sensorsättning, där den presterade ännu bättre. För icke-experter är huvudbudskapet att denna design utgör en praktisk ritning för att förvandla brusiga bärbara signaler till pålitliga, detaljerade beskrivningar av vad människor gör. Sådana modeller kan göra framtida hälsomonitorer, smarta hem och säkerhetssystem både mer tillförlitliga och lättare att köra på vardagliga enheter.

Citering: Huo, Y., Wei, C., Xu, Z. et al. Integrating multi-scale convolution and attention mechanisms in HybridHAR for high-performance human activity recognition. Sci Rep 16, 10143 (2026). https://doi.org/10.1038/s41598-026-40904-w

Nyckelord: igenkänning av mänsklig aktivitet, bärbara sensorer, djupinlärning, uppmärksamhetsmekanismer, hälsoövervakning