Clear Sky Science · ru
Алгоритм отслеживания объектов на основе механизма деформируемого внимания
Слежение в густонаселённом и хаотичном мире
Современные камеры наблюдают за оживлёнными улицами, торговыми центрами и производственными цехами, но научить компьютеры преследовать множество движущихся людей и объектов в таких сценах оказывается удивительно сложно. Когда кто‑то проходит за колонной, фары слепят, или толпа протискивается через дверной проём, даже продвинутое программное обеспечение для трекинга может потерять объект, перепутать идентичности или потреблять слишком много вычислительных ресурсов. В этой статье представлен новый подход к отслеживанию, разработанный для более надёжного удержания целей в реальных, хаотичных ситуациях, при этом остающийся достаточно эффективным для практического применения.

Почему традиционные методы отстают
Системы отслеживания обычно работают в три этапа: сначала они анализируют каждый видеокадр, извлекая визуальные признаки, затем объединяют информацию с разных масштабов и областей, и, наконец, предсказывают, как каждый объект будет двигаться со временем. Многие современные методы улучшают по очереди отдельные шаги — например, делают детектор лучше, ускоряют вычисления или добавляют более умные модели движения. Но в плотных и быстро меняющихся сценах слабые стороны между этими частями проявляются сильнее. Фиксированные «области восприятия» в стандартных сетях не могут гибко охватывать изгибающиеся позы или меняющиеся ракурсы, а предсказание движения, которое предполагает плавные простые траектории, сильно уводит, когда люди останавливаются, поворачивают или кратковременно скрываются за препятствиями.
Гибкий взгляд по направлению к движущимся целям
Авторы решают эти ограничения, давая системе отслеживания более гибкий способ «смотреть» на сцену. Они исходят из популярного бэкона для обработки изображений ResNet-18 и внедряют механизм деформируемого внимания. Вместо того чтобы всегда брать визуальную информацию в жёстко расположенных, равномерно распределённых точках, этот механизм учится смещать места выборки к наиболее информативным участкам человека или объекта — например, к контуру торса или головы — игнорируя отвлекающий фон. Вставляя такое гибкое внимание в более глубокие слои сети, система может адаптировать фокус по мере изменения позы, масштаба или частичного сокрытия людей, практически не увеличивая вычислительную нагрузку. Испытания на крупных бэнчмарках показывают, что этот гибкий «взгляд» не только повышает точность трекинга, но делает это с увеличением вычислений менее чем на 8% и лишь незначительным ростом числа параметров.
Смешение деталей по масштабам и во времени
Одновременное отслеживание многих объектов также требует от системы понимания как мелких деталей, так и общей картины. Для этого метод использует специальный модуль слияния признаков — двунаправленную пирамиду признаков, которая смешивает информацию из грубых, высокоуровневых представлений и тонких, низкоуровневых деталей. Авторы улучшают этот модуль тем же приёмом деформируемого внимания, что позволяет лучше выравнивать признаки, которые в противном случае могли бы не совпадать при наложении людей или быстром движении. Это помогает разделять отдельных людей в плотных толпах и снижает путаницу идентичностей. По временной оси алгоритм опирается на классический инструмент из теории управления — фильтр Калмана, но делает это более тонко. Вместо того чтобы рассматривать предсказание модели как главную истину и детектор как незначительную корректировку, поведение фильтра определяется уверенностью детектора в каждом кадре. Когда детектор уверен, система полагается на него напрямую и предотвращает накопление ошибок; когда он неуверен, фильтр больше опирается на прошлое движение, плавно комбинируя оба источника.

Насколько хорошо это работает в реальных условиях?
Команда оценивает свой подход — названный DAM-Track — на сложных публичных наборах данных, созданных для стресс‑тестирования алгоритмов отслеживания. На тестах для одиночного объекта, которые подчеркивают длинные последовательности и трудные ситуации, такие как сильная деформация и полная окклюзия, их деформируемая архитектура улучшает показатели перекрытия и успешности по сравнению со стандартным ResNet-18 без значительных дополнительных затрат. На известном бэнчмарке для мульти-объектного отслеживания, заполненном крайне плотными пешеходными потоками, DAM-Track достигает более высокой общей точности, лучшей локализации и большей стабильности идентичности по сравнению с широко используемыми методами, такими как ByteTrack и DeepSORT. Он сохраняет траектории дольше, теряет меньше целей и особенно хорошо предотвращает смены идентичности — что критично для приложений мониторинга безопасности и анализа трафика.
Что это значит для повседневных приложений
Для неспециалиста основная мысль такова: эта работа делает трекеры компьютерного зрения более устойчивыми в тех самых беспорядочных и непредсказуемых сценах, которые важны на практике — от вокзалов и городских улиц до интеллектуальных магазинов и автономных транспортных средств. Позволяя «взору» системы изгибаться к важным регионам и координируя извлечение признаков, многомасштабное слияние и предсказание движения через общую меру уверенности, авторы создают замкнутый трекер, который лучше отслеживает, кто и где находится со временем. Хотя необходимы дополнительные испытания в ночных условиях, с воздуха и в мультикамерах, этот гибкий, учитывающий уверенность дизайн указывает путь к новому поколению систем трекинга, способных надежнее наблюдать сложные среды без требовательных вычислительных затрат.
Цитирование: Liu, Q., Yu, N. & Cheng, J. Object tracking algorithm based on deformable attention mechanism. Sci Rep 16, 12454 (2026). https://doi.org/10.1038/s41598-026-43147-x
Ключевые слова: мульти-объектное отслеживание, компьютерное зрение, механизмы внимания, наблюдение за толпой, автономное вождение