Clear Sky Science · ru

Эффективное монокулярное 3D-обнаружение полос с помощью улучшенной Mamba версии CM-3DLane

2026-03-26 · Назад к списку

Более чёткое цифровое восприятие дороги

Оставаться в своей полосе — то, чего большинство водителей делают автоматически. Для самоуправляемых автомобилей, однако, понимание того, где в трёх измерениях проходят дорожные разметки, — непростая задача. В этом исследовании представлена CM-3DLane — новая система компьютерного зрения, которая позволяет автомобилю с одной фронтальной камерой точнее и эффективнее считывать форму полос в 3D, даже на холмах, поворотах и в плохую погоду.

Figure 1. Как одна фронтальная камера может восстановить 3D-форму дорожных полос для более безопасного автоматизированного вождения.

Почему 3D-полосы действительно важны

Большинство современных систем помощи водителю рассматривают обнаружение полос как плоскую, двухмерную задачу: они отмечают полосы на изображении камеры или на виде сверху. Это часто достаточно для простого движения по шоссе, но терпит неудачу на крутых подъёмах, съездах и сложных развязках. Плоская модель не может полностью описать, насколько далеко находится линия полосы, как она поднимается или опускается и как изгибается в пространстве. 3D-обнаружение полос даёт более богатую пространственную информацию, что помогает планировать плавные траектории, сохранять безопасную дистанцию и принимать лучшие решения на высокой скорости.

Ограничения существующих камерных методов

Существующие системы на базе камеры обычно действуют одним из двух способов. Многие сначала преобразуют вид с камеры в проекцию сверху, опираясь на простое допущение о плоской дороге, затем поднимают эти 2D-полосы обратно в 3D. Этот упрощённый подход даёт сбой, когда дорога наклонена или имеет неровности, а также искажает автомобили и другие объекты, находящиеся на поверхности дороги. Другие современные методы пропускают вид сверху и моделируют полосы напрямую как 3D-кривые, закреплённые в пространстве. Хотя в принципе это точнее, такие подходы испытывают трудности, потому что разметка полос тонкая, блеклая и часто прерывистая, что затрудняет связывание удалённых фрагментов стандартными нейросетями без огромных вычислительных затрат.

Более умный способ считывать полосы с одной камеры

Фреймворк CM-3DLane стремится захватить как тонкие детали, так и общую структуру полос, оставаясь при этом достаточно лёгким для работы в реальном времени в автомобиле. Он начинается с привычной сети для изображений, которая извлекает признаки на нескольких масштабах из фронтального вида камеры — от грубых очертаний до мелких текстур. Модуль Cross-Scale Attention Fusion затем обучается смешивать эти масштабы так, чтобы дальние узкие полосы и близкие широкие обрабатывались одинаково хорошо, а отвлекающие фоновые текстуры подавлялись. Это помогает системе фокусироваться на настоящей дорожной разметке, а не на тенях, трещинах или маркировке, похожей по виду.

Figure 2. Как мультимасштабные признаки, специальные траектории сканирования и продуманный отбор якорей превращают шумные дорожные разметки в чистые 3D-кривые полос.

Следование кривым полос как при сканировании

Ключевая инновация заключается в том, как CM-3DLane моделирует дальнюю структуру полос. Авторы адаптируют недавнее семейство моделей, известное как модели пространства состояний, изначально разработанных для быстрого обработки последовательностей, в блок Lane-Aware Mamba. Вместо чтения пикселей по строкам, этот блок сканирует признаки вдоль специальных «змеевидных» диагональных путей, которые лучше следуют естественным кривизнам полос по мере удаления в перспективе. Так он стыкует разрозненные подсказки о полосах на больших участках сцены, сохраняя при этом вычисления достаточно малыми для работы в реальном времени.

Оставляя только наиболее полезные кандидаты полос

Ещё одна задача в том, что системе приходится рассматривать множество возможных 3D-кривых и решать, какие из них действительно соответствуют полосам. CM-3DLane вводит модуль Refined Anchor Dynamic Ranking, который оценивает эти кандидатные кривые с помощью простой вспомогательной карты вероятных позиций полос и их локального вида. Затем он оставляет только наиболее перспективные кандидаты, сокращая путаницу и вычислительную нагрузку. Этот этап отбора направляется простыми геометрическими правилами, которые предпочитают гладкие, согласованные формы полос вместо зубчатых или неправдоподобных вариантов.

Что означают результаты для будущих автомобилей

Проверенная на двух требовательных бенчмарках, включая крупный реальный набор данных из городских и шоссейных сцен, CM-3DLane достигает более высокой точности по сравнению с предыдущими методами, при этом работая со скоростью до десятков кадров в секунду на одной видеокарте и оставаясь практичной даже на встраиваемом автомобильном оборудовании. Для неспециалистов главный вывод в том, что система позволяет автомобилю с одной лишь камерой строить более чёткую 3D-картину полос в разнообразных и грязных условиях, делая шаг вперёд к более безопасному и надёжному автономному вождению без зависимости от дорогих датчиков глубины.

Цитирование: Yang, Y., Zhang, X. & Liu, Y. Efficient monocular 3D lane detection via Mamba-enhanced CM-3DLane framework. Sci Rep 16, 15074 (2026). https://doi.org/10.1038/s41598-026-44870-1

Ключевые слова: 3D-обнаружение полос, автономное вождение, монокулярное зрение, модели пространства состояний, компьютерное зрение