Clear Sky Science · ru
Оценка позы человека на основе легких носимых ИМУ с учетом человеко-ориентированного дизайна
Почему важно более быстрое отслеживание тела
От клиник физиотерапии до гарнитур виртуальной реальности — многие современные технологии зависят от понимания того, как наши тела движутся в реальном времени. Сегодня для этого часто требуются камеры, маркеры или громоздкие компьютеры, которые неудобно носить весь день. В этом исследовании изучается, как крошечные датчики движения, похожие на те, что используются в смартфонах и умных часах, можно сочетать с умными алгоритмами, чтобы практически мгновенно оценивать позу всего тела, потребляя при этом очень мало энергии. Цель проста: сделать отслеживание движения достаточно точным для серьезного применения, но легким и эффективным, чтобы оно сливалось с повседневными носимыми устройствами.

Маленькие датчики, большие движения
Работа сосредоточена на инерциальных измерительных блоках, или ИМУ — устройствах размером со спичечный коробок, которые измеряют ускорение и вращение. Размещенные в нескольких ключевых точках тела, ИМУ способны фиксировать наши движения даже там, где камеры нас не видят, например в переполненных помещениях или на улице ночью. Задача в том, что преобразовать эти сырые показания датчиков в детализированную 3D-позу тела — сложная головоломка: у устройства есть только несколько сигналов, а ему нужно восстановить положения множества суставов у разных людей, выполняющих разные действия. Предыдущие методы использовали большие нейронные сети, такие как глубокие рекуррентные сети и трансформеры: они точны, но тяжелы — требуют много памяти, энергии и времени, что делает их непригодными для небольших носимых устройств.
Обучение маленькой модели мыслить как большая
Авторы предлагают двухэтапную стратегию, вдохновленную тем, как ученик учится у учителя. Во время лабораторного обучения они используют большой, мощный трансформер как «учителя» для глубокого анализа данных датчиков по времени и по различным точкам на теле. Параллельно они проектируют небольшую «ученическую» модель, основанную на операции, называемой инволюцией, которая гибко подстраивается под локальные шаблоны в данных, при этом требуя гораздо меньше параметров, чем стандартная свертка. Через процесс, известный как дистилляция знаний, ученик не просто повторяет финальные выходы позы; его также подталкивают к имитации внутренних признаков учителя. Так ученик постепенно усваивает высокоуровневые приемы чтения движений по датчикам без необходимости обладать размером и сложностью учителя при развертывании.

Преобразование обучающей сети в крошечный движок времени выполнения
Чтобы сделать ученическую модель действительно пригодной для носимых устройств, исследователи идут дальше с процедурой, называемой структурной ре-параметризацией. Во время обучения блок ученика включает несколько ветвей, этапов нормализации и адаптивных ядер, чтобы максимально повысить гибкость обучения. До развертывания все эти элементы математически объединяются в одну упрощенную операцию, которая ведет себя как две простые одномерные свертки. Этот процесс «сворачивания» сохраняет поведение модели, но устраняет лишние слои и операции. Поскольку стандартная свертка сильно оптимизирована на современной аппаратуре, эта трансформация резко сокращает время и энергию, необходимые для обработки каждого кадра, без потери того, чему сеть научилась.
Насколько хорошо это работает на практике?
Команда оценивает свой подход на двух публичных наборах данных по движению — DIP-IMU и IMUPoser, которые содержат миллионы кадров людей, выполняющих повседневные и спортивные действия, записанных одновременно с помощью ИМУ и высокоточных систем захвата движения. Их легковесная модель сопоставима или почти сопоставима с лучшими существующими методами по средней ошибке суставов — 81 миллиметр на DIP-IMU и 94 миллиметра на IMUPoser, что составляет примерно 1% от сильнейших базовых методов. При этом она работает в одном-два порядка быстрее: каждый кадр обрабатывается примерно за 0,011–0,012 миллисекунды, по сравнению с несколькими десятыми миллисекунды до почти целой миллисекунды у конкурентов. Эта скорость переводится в десятки тысяч кадров в секунду на GPU, что значительно превышает реальные потребности любого носимого устройства, оставляя много запаса для экономии батареи и других задач на устройстве.
Что это значит для повседневных носимых устройств
Для неспециалистов ключевой вывод таков: авторы нашли способ разделить «тяжелое мышление» и «быстрое действие». Большая модель может глубоко анализировать во время обучения, чтобы всесторонне понять человеческое движение, тогда как гораздо меньшая модель — аккуратно обученная и затем упрощенная — справляется с задачей в реальном времени на вашем браслете, гарнитуре или ортезе для реабилитации. В результате получаем отслеживание тела почти такой же точности, как у громоздких лабораторных систем, но достаточно экономное для низкопотребляющих устройств, работающих постоянно. Это открывает путь для носимых гаджетов, которые могут своевременно давать обратную связь во время тренировок, предупреждать о опасных движениях на работе или делать виртуальные миры более естественно реагирующими на движения нашего тела — и всё это без громоздкого оборудования и быстрого разряда батареи.
Цитирование: Wang, L., Liu, J., Xue, J. et al. Human-centered design-based lightweight wearable IMU human pose estimation. Sci Rep 16, 11420 (2026). https://doi.org/10.1038/s41598-026-41004-5
Ключевые слова: носимые датчики, оценка позы человека, инерциальные измерительные блоки, легковесные нейронные сети, отслеживание движения в реальном времени