Clear Sky Science · ru

DeCon-Net: разъединённый иерархический контраст для обнаружения объектов в футболе

2026-02-06 · Назад к списку

Почему заметить игроков и мяч сложнее, чем кажется

Современные трансляции футбольных матчей полны графики, статистики и мгновенных повторов — всё это управляется компьютерными системами, которым нужно сначала ответить на на вид простейший вопрос: где на каждом кадре игроки и мяч? В этой работе рассматривается, почему ведущие сегодня инструменты искусственного интеллекта до сих пор испытывают трудности с этой базовой задачей в реальных матчах, и предлагается новый метод, DeCon‑Net, который делает автоматическое обнаружение игроков и мяча значительно надёжнее, особенно в шумных, загруженных сценах.

Три скрытые проблемы в футбольных видео

На первый взгляд, обнаружение игроков и мяча кажется простым: они двигаются, имеют отчётливые формы и выделяются на поле. Но авторы показывают, что стандартные системы компьютерного зрения страдают от трёх взаимосвязанных проблем. Во‑первых, товарищи по команде в одинаковой форме становятся почти неразличимы для алгоритма: его внутренние «фичи» сводятся в почти идентичные точки. Во‑вторых, в плотных стычках игроки настолько перекрывают друг друга, что детекторы часто рисуют один большой ограничивающий прямоугольник вокруг нескольких человек вместо отдельных коробок для каждого. В‑третьих, мяч крошечный — иногда всего несколько десятков пикселей — и его визуальный сигнал настолько слаб, что теряется на фоне текстуры травы и движения игроков, из‑за чего система может вовсе пропустить его.

Разделение того, что сеть изучает

DeCon‑Net решает эти проблемы, изменяя способ представления увиденного нейронной сетью. Вместо того чтобы позволять модели выучивать одно смешанное описание для каждого объекта, авторы разделяют это описание на две дополняющие части. Одна ветвь фиксирует то, что объединяет игроков одной команды — например цвет формы — а другая сосредоточена на том, что делает каждого уникальным, как поза тела или точное положение. Особый тренировочный приём инвертирует градиент для «индивидуальной» ветви всякий раз, когда сеть пытается использовать там командную информацию, фактически обучая её игнорировать цвет формы и концентрироваться на признаках, относящихся к конкретному игроку. Затем две ветви адаптивно объединяются, так что система может опираться больше на общие черты в простых сценах и больше на индивидуальные признаки, когда игроки тесно сбиты вместе.

Обучение модели через сравнения, а не только метки

Помимо этого разделённого представления, DeCon‑Net перестраивает сам процесс обучения. Метод добавляет иерархический «контрастивный» этап тренировки, который постоянно сравнивает пары обнаруженных объектов. Парам, которые уже явно различимы, даются мягкие корректировки, тогда как парам, выглядящим слишком похоже — например двум товарищам по команде, стоящим плечом к плечу — уделяется более агрессивное обучение, чтобы они раздвинулись в внутреннем пространстве сети. Эта трёхуровневая стратегия начинается с простых различий, затем переходит к более тонким отличиям внутри команды и, наконец, к вариациям между разными матчами и условиями трансляции. Чтобы спасти крошечный мяч от пропуска, метод также усиливает влияние очень маленьких объектов во время обучения, делая сигнал мяча заметным, а не тонущим в фоновом шуме.

От лабораторных бенчмарков к реальным спортивным трансляциям

Исследователи протестировали DeCon‑Net на двух требовательных наборах данных: SportsMOT, который включает футбол, баскетбол и волейбол, и SoccerNet‑Tracking, собранный из реальных телевизионных трансляций с приближениями камеры, размытиями движения и частыми заслонениями. Во всех случаях DeCon‑Net обнаруживал игроков и мяч точнее, чем широко используемые системы на основе Faster R‑CNN, DETR и недавние методы, ориентированные на трекинг. Прирост был особенно заметен для мяча — точность выросла более чем на 40 процентов по сравнению с сильными базовыми решениями. Система также показала себя устойчивее при применении к другому набору данных, чем тот, на котором она обучалась, что указывает на то, что её конструкция с разделёнными признаками захватывает более общие, переиспользуемые сигналы о спортивных сценах.

Что это значит для будущего спортивной аналитики

Проще говоря, работа показывает, что многие текущие ИИ‑системы «видят» футбол слишком упрощённо: они сливают игроков одной команды и фактически игнорируют мяч, когда у игры накаляется. DeCon‑Net противостоит этому, заставляя сеть отдельно изучать, кто к какой команде принадлежит, и кто какой индивидуум, одновременно уделяя дополнительное внимание крошечным, легко пропускаемым объектам. В результате получается более точная и надёжная карта каждого игрока и мяча на поле в каждом кадре. Эта основа может питать более глубокий тактический анализ для тренеров, более насыщенную графику для вещателей и более точную статистику для болельщиков, приближая нас к по-настоящему интеллектуальному автоматизированному пониманию игры.

Цитирование: Ouyang, Q., Du, T. & Li, Q. DeCon-Net: decoupled hierarchical contrast for soccer object detection. Sci Rep 16, 7571 (2026). https://doi.org/10.1038/s41598-026-39084-4

Ключевые слова: анализ видеозаписей футбола, обнаружение объектов, спортивная аналитика, компьютерное зрение, отслеживание мяча