Clear Sky Science · ru

Конвейер CNN–Bi-LSTM и открытый набор данных FSW для распознавания действий в вольной борьбе

· Назад к списку

Обучая компьютеры «смотреть» борьбу

Вольная борьба быстрая, запутанная и трудноразличимая — даже для людей. Для компьютеров отличить один бросок от другого в заполнённой арене ещё сложнее. В этом исследовании показано, как тщательно построенный видео-конвейер и новый общедоступный набор данных помогают машинам распознавать конкретные приёмы в борьбе, открывая возможности для более умной спортивной аналитики, инструментов для тренеров и автоматической генерации хайлайтов.

Проблема контактных видов спорта

Большинство современных систем распознавания видео обучались на клипах, где люди относительно разнесены и их легко увидеть — например, бегущий человек или кто-то, машущий теннисной ракеткой. Вольная борьба иная: спортсмены прижаты друг к другу, конечности накладываются, а кадр заполнен отвлекающими элементами — судьями, ковром и болельщиками. Стандартные бенчмарки не отражают этой сложности, поэтому методы, хорошо работающие на повседневных действиях, часто дают сбой, когда борцы сцепляются, кувыркаются и проворачиваются в быстрой последовательности.

Создание новой библиотеки приёмов борьбы

Чтобы заполнить этот пробел, авторы создали набор данных Open FSW — кураторскую коллекцию из 210 коротких клипов по вольной борьбе. Каждый клип показывает ровно один полный приём, выбранный из семи чётко определённых техник, таких как бедренные броски, захваты ног и прокручивающие подножки. Клипсы взяты из двух источников: контролируемых тренировочных сессий с небольшой группой спортсменов и телевизионных трансляций публичных матчей, что обеспечивает вариативность в углах съёмки, освещении и фоновом шуме. Эксперты и судьи помогали маркировать каждый клип, а набор данных разбит таким образом, что клипы из одного и того же матча или тренировки никогда не попадают одновременно и в тренировочную, и в тестовую выборки — это снижает риск переоценки результатов.

Figure 1
Figure 1.

Фокус на борцах, а не на толпе

Суть подхода — научить компьютер «обращать внимание» на борцов и по возможности игнорировать всё остальное. Каждый кадр видео сначала проходит через сегментационную модель, которая отделяет спортсменов от фона и даёт чистые силуэты переднего плана. Эти кадры переднего плана затем обрабатываются глубокой сверточной сетью, которая сжимает изображение в компактный вектор признаков — по сути числовое резюме формы и позиций борцов в данный момент. Наконец, двунаправленная последовательная модель рассматривает всю серию таких свёрнутых кадров, в обоих направлениях — от начала к концу и наоборот — чтобы определить, какой из семи приёмов показан в клипе.

Насколько хорошо система усваивает приёмы

Исследователи протестировали несколько популярных энкодеров изображений и сравнили свой конвейер с учётом переднего плана с ранними методами, которые в основном опираются на скелетные контуры атлетов. Их лучшая конфигурация, комбинирующая дообученную сегментацию с бэкбоном EfficientNet для изображений и последовательной моделью, правильно определяет приём примерно в 83% клипов. Это заметное улучшение по сравнению с сильным базовым решением на основе скелетных представлений и по сравнению с вариантами собственной системы, которые пропускали шаг выделения переднего плана. Наибольший прирост наблюдается для приёмов, где тела сильно переплетены и фон особенно отвлекающий. Статистические тесты по нескольким фолдам данных подтверждают, что эти улучшения вряд ли вызваны случайностью.

Figure 2
Figure 2.

Компромиссы, ограничения и более широкий эффект

Фокус на борцах имеет свою цену: выполнение дополнительного шага сегментации примерно удваивает время обработки одного клипа на протестированном железе. Для офлайн-анализа — например, разборов после матчей или исследовательских работ — такие накладные расходы приемлемы, но для приложений в реальном времени могут потребоваться более быстрые модели сегментации или более мощное оборудование. В работе также отмечают, что набор данных относительно мал, с чем авторы борются через трансферное обучение и аугментации, и что сегментация может давать сбои при сильном размытии движения или при экстремальных перекрытиях.

Что это значит для болельщиков и тренеров

Проще говоря, исследование показывает: очистка того, что видит компьютер — вырезание борцов из занятой сцены перед анализом действия — делает его значительно лучше в распознавании конкретных приёмов. Хотя текущие результаты оптимизированы для вольной борьбы, та же идея может быть применена к другим контактным видам спорта, таким как дзюдо или бразильское джиу‑джитсу. Выпустив и набор данных, и код, авторы закладывают основу для будущих систем, которые смогут автоматически разбирать сложные захватные эпизоды, помогая тренерам, спортсменам и болельщикам лучше понимать происходящее на ковре.

Цитирование: Rostamian, M., Mottaghi, A. & Soryani, M. A CNN–Bi-LSTM pipeline and open FSW dataset for freestyle wrestling action recognition. Sci Rep 16, 14632 (2026). https://doi.org/10.1038/s41598-026-44782-0

Ключевые слова: вольная борьба, распознавание действий, спортивная аналитика, компьютерное зрение, глубокое обучение