Clear Sky Science · ru
Многомерный трансформер внимания для обнаружения автомобилей и пешеходов в неблагоприятную погоду
Почему важно «видеть» в плохую погоду
Современные автомобили и городские камеры учатся «видеть» дорогу за нас, выявляя машины и пешеходов настолько быстро, что помогают предотвращать аварии. Но дождь, туман и темнота по‑прежнему сбивают с толку многие из этих систем, скрывая людей и автомобили в самые критичные моменты. В этой статье представлен MDAT‑YOLO — новая модель компьютерного зрения, разработанная так, чтобы быстро и надёжно обнаруживать участников дорожного движения даже в густом тумане, сильном душе и при слабом освещении.

Проблемы вождения в реальных условиях
Многие годы исследователи улучшали автоматическое обнаружение объектов с помощью мощных моделей глубокого обучения, таких как YOLO, которые в реальном времени просматривают изображения и отмечают автомобили, автобусы, велосипеды и людей. Однако большинство таких моделей обучены и настроены в ясных дневных условиях. Когда видимость падает — ночью, в тумане или во время ливня — объекты становятся бледными, размытыми или частично скрытыми. Особенно легко пропустить мелких или удалённых участников движения. Существующие подходы часто специализируются на одном типе плохой погоды или собирают вместе несколько тяжёлых сетей, что делает их слишком медленными и сложными для работы в реальном времени в автомобилях и системах наблюдения.
Более умный способ сосредоточиться на важном
MDAT‑YOLO начинается с компактной версии популярного детектора и перестраивает его внутренние блоки так, чтобы модель могла адаптироваться к сложным сценам, а не обрабатывать каждое изображение одинаково. Ключевая идея — позволить модели в реальном времени решать, на какие участки изображения направить внимание и как обрабатывать разные типы визуальных паттернов. За этим поведением стоят два новых компонента. Оптимизированный слой глубинной сверточной операции (depthwise convolution) изменяет поток информации между цветными каналами, делая сеть легче и в то же время более выразительной. Второй модуль, называемый омни‑измерительной динамической свёрткой (omni‑dimensional dynamic convolution), регулирует свои фильтры не только по пространству, но и по разным каналам признаков и наборам фильтров. Вместе они позволяют модели по‑разному реагировать на густой туман, резкие блики или шум от дождевых полос, не замедляя работу.
Добавление глобального контекста без потери скорости
Помимо уточнения локальных деталей, авторы придают модели лучшее понимание всей сцены. Они вводят лёгкий блок трансформера — компонент, часто используемый в языковых моделях — который улавливает дальнодействующие связи в изображении. Вместо того чтобы применять большой и дорогой трансформер повсеместно, они интегрируют облегчённую версию в ключевые этапы сети. Это помогает детектору понять, что бледный контур на горизонте скорее всего — автомобиль на дороге, а небольшие скопления пикселей могут принадлежать пешеходу, частично скрытому туманом или дождём.

Испытание модели в тяжёлых погодных условиях
Чтобы проверить, действительно ли эти изменения дизайна помогают, исследователи протестировали MDAT‑YOLO на нескольких требовательных наборах изображений. В их число вошли наборы реальных сцен с туманом, дымкой и дождём; набор ночных съёмок при слабом освещении; недавно созданная туманная версия известного эталонного набора; а также набор реальных дождевых сцен. Во всех этих случаях новая модель обнаруживала автомобили, автобусы, мотоциклы, велосипеды и людей точнее, чем многие современные варианты YOLO и другие продвинутые методы. Она особенно хорошо справлялась с поиском транспортных средств в густом тумане и людей в тёмных сценах. Не менее важно, что модель сохраняла скорость работы в реальном времени, обрабатывая примерно до 145 изображений в секунду на современном оборудовании — достаточно быстро для использования в движущихся автомобилях и системах мониторинга трафика в реальном времени.
Что это значит для повседневной безопасности
Проще говоря, MDAT‑YOLO — это шаг к камерам и бортовым компьютерам, которые продолжают работать надёжно, когда погода ухудшается. Сочетая эффективные архитектурные блоки с гибким вниманием и глобальным контекстом, система «смотрит внимательнее» на тусклые, мелкие или частично скрытые объекты, не становясь громоздкой или медленной. Хотя необходимы дополнительные испытания на более широких полностью реальных данных, результаты указывают на то, что будущие системы помощи водителю, автономные автомобили и придорожные камеры могут реже пропускать участников движения в тумане, дожде и темноте — что поможет сделать улицы безопаснее даже в самые плохие дни.
Цитирование: Biswas, S., Kumar, J., Mitra, A. et al. Multi-dimensional attention transformer for vehicle and pedestrian detection in adverse weather. Sci Rep 16, 12624 (2026). https://doi.org/10.1038/s41598-026-40319-7
Ключевые слова: автономное вождение, обнаружение объектов, неблагоприятная погода, компьютерное зрение, безопасность дорожного движения