Clear Sky Science · ru

YOLO-DC для обнаружения транспортных средств с использованием деформируемых сверточных сетей и сквозного по каналам координатного внимания

· Назад к списку

Почему наблюдение за автомобилями с камер действительно важно

Современные города зависят от камер, следящих за оживлёнными дорогами, помогая управлять пробками и прокладывая путь для автономных автомобилей. Но надёжно выявлять все транспортные средства на видеопотоке оказывается удивительно сложно, особенно когда машины малы на заднем плане, частично скрыты в плотном трафике или замылены дождём, туманом или в темноте. В этой работе представлена система YOLO‑DC — новый компьютерный метод, который стремится быстро и точно обнаруживать автомобили, автобусы и другие транспортные средства даже в сложных реальных условиях и на устройствах с ограничёнными вычислительными ресурсами.

Транспортная проблема, стоящая за исследованием

Развивающиеся города сталкиваются с перегруженными дорогами, ростом аварий и увеличением выбросов. Интеллектуальные транспортные системы обещают помощь, отслеживая трафик в реальном времени и направляя как людей, так и автономные автомобили. В основе лежит быстрое и надёжное обнаружение транспортных средств в видео. Ранние «двухэтапные» алгоритмы просматривали изображения в несколько проходов и могли быть очень точны, но часто слишком медленны для работы в реальном времени на уличных или автомобильных камерах. Современные «одноступенчатые» системы, такие как семейство YOLO («You Only Look Once»), жертвуют частью сложности ради существенно большей скорости, что делает их популярными на практике. Однако они по‑прежнему испытывают трудности с малыми, перекрывающимися объектами и с суровой погодой, скрывающей детали. YOLO‑DC основывается на новейшей модели YOLOv8 и перерабатывает её внутренние слои, чтобы лучше справляться с этими задачами.

Как YOLO‑DC видит больше за счёт более умной фокусировки

В основе YOLO‑DC лежит обновлённая «основная» сеть (backbone) — часть, которая сначала преобразует сырое изображение в абстрактные признаки. Авторы вводят механизм, называемый сквозным по каналам координатным вниманием, который фактически обучает сеть не только тому, где смотреть на изображении, но и каким типам визуальных шаблонов придавать больше веса. В сочетании с так называемыми деформируемыми свёртками — фильтрами, способными изгибать свою схему выборки, чтобы следовать наклонным или необычной формы транспортным средствам — такая основа лучше адаптируется к автомобилям, видимым под разными углами, на разных масштабах и в разных положениях. Вместо того чтобы рассматривать каждый участок дороги одинаково, система учится выделять характерные контуры и текстуры, которые отличают реальные транспортные средства от зданий, деревьев или дорожной разметки.

Figure 1
Figure 1.

Улавливание малых и далёких автомобилей без потери скорости

Средняя часть модели, известная как «шея» (neck), отвечает за объединение информации из грубых, «отдалённых» представлений и детализированных приближённых признаков. YOLO‑DC улучшает этот этап двумя способами. Во‑первых, модуль приоритета каналов внимания помогает сети подавлять шум и подчёркивать тонкие признаки малых автомобилей, находящихся далеко в кадре. Во‑вторых, переработанный блок, вдохновлённый лёгкой архитектурой FasterNet, сокращает число операций, применяя полные свёртки только к части данных, а затем эффективно смешивая результаты. Такая аккуратная переработка сокращает и количество параметров, и объём передачи данных в памяти, позволяя модели работать быстрее при фактическом повышении точности — редкое и весьма желательное сочетание для периферийных устройств, таких как уличные камеры и автомобильные компьютеры.

Распознавание транспортных средств разных размеров и в плохую погоду

Финальный этап, или «голова» (head), решает, где объекты и что они представляют собой. YOLO‑DC вводит многоуровневые групповые свёртки (multi‑scale grouped convolutions), разделяя карты признаков на несколько каналов-групп, каждая из которых использует фильтры разного размера перед повторным объединением. Это даёт детектору более богатое представление о масштабах, позволяя одновременно распознавать огромные автобусы, средние грузовики и крошечные автомобили, едва заметные вдали. В обширных тестах на датасете UA‑DETRAC, содержащем дорожные сцены при облачности, солнечном свете, дожде и ночью, YOLO‑DC сопоставим или превосходил по точности лучшие детекторы, при этом требуя лишь небольшой доли их вычислений и обрабатывая сотни кадров в секунду на современном железе. На датасете DAWN, специально рассчитанном на туман, дождь, снег и песчаные бури, новая модель показала особенно большие улучшения в сильном дожде и плотном тумане, где традиционные системы часто дают сбой.

Figure 2
Figure 2.

Что означают результаты для обычных дорог

Для неспециалистов главный вывод в том, что YOLO‑DC лучше «видит» реальный трафик таким, каким он есть: переполненным, беспорядочным и часто скрытым плохой погодой или плохим освещением. Комбинация гибких фильтров, следующих за формой транспортных средств, и механизмов внимания, фокусирующихся на наиболее информативных областях, позволяет системе обнаруживать больше машин, реже пропускать их и работать достаточно быстро для анализа видеопотока в реальном времени на скромных по мощности устройствах. Это делает модель перспективным строительным блоком для более умного управления трафиком, надёжного мониторинга аварий и безопасного автономного вождения — при этом затраты на обработку остаются достаточно низкими для широкого развертывания по улицам города и в будущих автомобилях.

Цитирование: Liu, Z., Zhu, M., Gao, B. et al. YOLO-DC for vehicle detection using deformable convolutional networks and cross-channel coordinate attention. Sci Rep 16, 6284 (2026). https://doi.org/10.1038/s41598-026-37094-w

Ключевые слова: обнаружение транспортных средств, интеллектуальный транспорт, YOLO, неблагоприятная погода, видение в реальном времени