Clear Sky Science · ru

Семантично-ориентированное самообучение с прогрессивной регрессией субдействий для оценки качества выполнения

2026-01-30 · Назад к списку

Смотреть на выступление под новым углом

Когда мы наблюдаем олимпийских прыгуний в воду или других элитных спортсменов, мы интуитивно чувствуем, кто выступил лучше, но превратить это ощущение в объективные числа сложно. Современные автоматические видео‑системы могут присвоить действию общий «балл», но редко объясняют, почему прыжок был хорошим или плохим, и какая часть требует работы. В этой работе предложен новый способ, позволяющий компьютеру смотреть сложные действия на видео, разбивать их на понятные части и оценивать каждую часть отдельно — обеспечивая обратную связь, более близкую к той, которую дал бы человеческий тренер.

Разбиение сложного движения на управляемые фрагменты

Многие существующие инструменты оценки качества действий рассматривают весь прыжок или движение как единый блок и выдают лишь одну суммарную оценку. Это скрывает важные детали: спортсмен мог идеально оттолкнуться, но плохо зайти в воду, и одно число этого не покажет. Авторы решают эту проблему, обучая систему автоматически делить каждое видео на осмысленные этапы или субдействия — например, подготовка, отрыв, полет и заход в воду. Важно, что это разбиение выполняется автоматически, без ручной разметки границ этапов. Небезнадзорный метод кластеризации группирует соседние кадры, которые «ведут себя» похоже во времени, давая системе грубую, но надежную раскадровку исполнения.

Пусть система сама узнает, что важно

После разделения видео на этапы системе нужно понять, как выглядит хороший или плохой вариант каждого этапа. Вместо того чтобы полагаться на плотные вручную подготовленные метки, авторы используют самообучение: модели показывают множество версий одного и того же субдействия, в которых намеренно удаляются или «маскируются» участки кадров. Система должна по-прежнему выдавать схожие внутренние представления для полного и частично усеченного клипа. Обучаясь игнорировать эти искусственные пробелы, модель становится устойчивой к реальным проблемам — кратковременным перекрытиям, пропущенным кадрам или немного неточным границам этапов — и учится фокусироваться на существенных закономерностях движения и позы, определяющих качество.

От одной общей оценки к множеству полезных подсчетов

В реальных датасетах обычно имеется лишь одна общая оценка для каждого прыжка, а не отдельные рейтинги для каждого этапа. Чтобы обойти это ограничение, авторы вводят прогрессивную стратегию «псевдоподоценок». Сначала они объединяют общую оценку с вновь извлеченными признаками для каждого субдействия и обучают небольшие сети прогнозировать предварительный балл для каждого этапа. Затем эти предположения уточняются за счет потоковой передачи информации вдоль последовательности: признаки каждого этапа обновляются с учетом баллов предыдущих этапов, что позволяет учесть, как небольшая ошибка при отрыве может отразиться на полете и заходе. В одном варианте каждый этап получает доступ ко всем предыдущим оценкам, моделируя дальнодействующие причинно‑следственные связи внутри действия. Наконец, компактная регрессионная сеть объединяет уточненные оценки этапов в итоговый прогноз, теперь без необходимости подавать на вход истинную общую оценку.

Тестирование на реальных соревнованиях по прыжкам в воду

Исследователи оценили свою систему на двух требовательных наборах данных по прыжкам, записанных на крупных международных соревнованиях. Эти коллекции содержат общие оценки судей и, в некоторых случаях, грубые временные метки этапов, но не имеют пометок качества на уровне этапов. Новый метод достиг состояния‑арта по ранжировочной корреляции, что означает, что его порядок спортсменов тесно совпадает с мнением экспертов, и при этом снизил числовые ошибки в предсказанных баллах. Тщательные «абляционные» тесты показали, что обе ключевые идеи — самообучаемая доработка признаков и прогрессивная модель псевдоподоценок — вносят значительный вклад. Примечательно, что автоматические границы этапов показали результат почти не хуже, чем трудоемкая ручная разметка, что указывает на устойчивость системы к несовершенной сегментации.

Преобразование чисел в содержательные советы для тренера

Кроме точности, такой подход делает автоматическую оценку более интерпретируемой. Присваивая отдельный балл каждому этапу прыжка, система может указать, например, что у двух прыгунов схожи отрывы и полеты, но они резко расходятся на заходе в воду, где один создает большой всплеск. Анализ большого числа образцов подтверждает, что эти оценочные показатели этапов следуют тем же приоритетам, что и у судей‑людей, при этом заход в воду часто весит больше всего. Практически метод помогает спортсменам и тренерам точно определить ту часть выполнения, которую нужно улучшить, при этом обучаясь на относительно простых данных. Хотя демонстрация показана на прыжках в воду, концепция достаточно гибка, чтобы применяться к другим многопроцессным задачам — от хирургических процедур до упражнений для реабилитации — где важно понять вклад каждого сегмента в общую оценку качества.

Цитирование: Mazruei, M., Fazl-Ersi, E., Vahedian, A. et al. Semantic-aware self-supervised learning using progressive sub-action regression for action quality assessment. Sci Rep 16, 6670 (2026). https://doi.org/10.1038/s41598-026-36668-y

Ключевые слова: оценка качества выполнения, анализ спортивного видео, самостоятельное обучение, оценка человеческого движения, глубокое обучение для тренеров