Clear Sky Science · ru

Интеграция многомасштабных свёрток и механизмов внимания в HybridHAR для высокопроизводительного распознавания активности человека

2026-02-21 · Назад к списку

Почему важно обучать компьютеры распознавать повседневные движения

Каждый день наши телефоны, часы и другие устройства тихо фиксируют, как мы двигаемся — идём ли мы пешком, поднимаемся по лестнице или отдыхает на диване. Преобразование этих необработанных сигналов движения в надёжное понимание активности человека может изменить мониторинг здоровья, уход за пожилыми, реабилитацию и умные дома. В этой статье представлен HybridHAR — новая модель, разработанная для более точного и эффективного чтения таких сигналов, что приближает нас к носимым устройствам, действительно понимающим, что мы делаем в реальном времени.

Понимание активности по данным датчиков движения

Распознавание активности человека — задача определения того, что делает человек, на основе данных таких датчиков, как акселерометры и гироскопы в смартфонах и носимых устройствах. Ранее системы опирались на вручную создаваемые экспертами признаки из этих сигналов, которые затем подавались в традиционные алгоритмы машинного обучения. Такой подход работал в контролируемых лабораторных условиях, но часто давал сбои в более шумном реальном мире, где движения более разнообразны и хаотичны. Глубокое обучение улучшило ситуацию за счёт автоматического выявления закономерностей в данных, но распространённые архитектуры всё ещё упускают важные детали, разворачивающиеся на разных временных масштабах, и иногда теряют информацию по мере углубления сети.

Почему существующие глубокие модели всё ещё испытывают трудности

Человеческие движения происходят одновременно на многих временных масштабах: быстрый шаг, короткая прогулка по комнате или длительное сидение. Многие модели глубокого обучения либо сосредоточены на коротких фрагментах, либо на более длинных диапазонах, но не показывают одинаково высокой эффективности в обоих случаях. По мере усложнения сети и добавления слоёв могут возникать проблемы со затуханием сигналов обучения, из‑за чего ранние слои перестают совершенствоваться. Некоторые модели также лишены направляющего обучения внутренних слоёв, и поэтому они не формируют наиболее полезные среднеуровневые признаки для различения похожих по необработанным сигналам действий, например сидения и стояния.

Гибридная конструкция, рассматривающая движение в нескольких масштабах

Авторы предлагают HybridHAR — тщательно разработанную модель, которая устраняет эти слабые места, объединяя три основных идеи. Во‑первых, вместо единственного представления времени она пропускает один и тот же сигнал датчика через три параллельных пути обработки, каждый из которых охватывает разные временные масштабы — от очень коротких до относительно более длинных отрезков. Эти пути работают как три набора линз, улавливающие тонкие детали быстрых жестов и более медленные тренды в позе и движении. Их выходы затем объединяются в богатое комбинированное представление, сохраняющее информацию со всех масштабов.

Внимание и направление обучения в глубине модели

Во‑вторых, HybridHAR добавляет специальный модуль внимания поверх этого объединённого представления. Этот механизм обучается выделять наиболее информативные части сигнала — например тонкие различия в движении, которые отличают подъём по лестнице от спуска — одновременно сохраняя обходной путь, который сохраняет исходную информацию. Этот «резидуальный» обход помогает сигналам обучения плавно проходить через сеть, предотвращая вымывание информации на глубоких слоях. В‑третьих, модели добавлен вспомогательный классификатор, подключающийся к промежуточным признакам до применения внимания. Во время обучения этот вспомогательный выход также оценивается, мягко заставляя более ранние слои вырабатывать признаки, уже пригодные для предположений об активности, что стабилизирует и ускоряет обучение.

Насколько хорошо работает новый подход

Для проверки HybridHAR исследователи использовали широко применяемый публичный набор данных, в котором добровольцы носили смартфон, выполняя шесть базовых действий: три типа ходьбы, а также сидение, стояние и лежание. На этом бенчмарке HybridHAR достиг примерно 99% точности на валидационных данных и 96% точности на невиданном тестовом наборе, превзойдя несколько сильных альтернатив, включая классические свёрточные сети, рекуррентные сети, гибридные модели и подходы на базе обучения с подкреплением. Модель особенно хорошо различала похожие виды ходьбы и сократила ошибки между путающимися парами, такими как подъём и спуск по лестнице. Авторы также показали, что каждый из трёх компонентов — многомасштабные пути, внимание и глубокая супервизия — заметно улучшает результаты, а полная модель даёт лучшую производительность по сравнению с вариантами, в которых отсутствовал хотя бы один из них.

Почему это важно для устройств реального мира

Несмотря на высокую точность, HybridHAR остаётся компактной и быстрой, с гораздо меньшим числом настраиваемых параметров по сравнению с многими конкурирующими моделями и способностью обрабатывать сотни окон активности в секунду при использовании порядка мегабайта памяти. Она также хорошо обобщалась на втором, более сложном наборе данных с большим числом действий и более богатой конфигурацией датчиков, где показала ещё лучшие результаты. Для неспециалистов ключевая мысль такова: эта архитектура предоставляет практический план по превращению шумных сигналов с носимых устройств в надёжные, детализированные описания того, что делают люди. Такие модели могут сделать будущие устройства для мониторинга здоровья, умные дома и системы безопасности более надёжными и проще в запуске на повседневных устройствах.

Цитирование: Huo, Y., Wei, C., Xu, Z. et al. Integrating multi-scale convolution and attention mechanisms in HybridHAR for high-performance human activity recognition. Sci Rep 16, 10143 (2026). https://doi.org/10.1038/s41598-026-40904-w

Ключевые слова: распознавание активности человека, носимые датчики, глубокое обучение, механизмы внимания, мониторинг здоровья