Clear Sky Science · ru

Уточнение в частотной области с учётом RGB для дополнения глубины от разрежённой к плотной

· Назад к списку

Более чёткая цифровая глубина для повседневных машин

Автомобили с автопилотом, роботы-доставщики и гарнитуры дополнённой реальности всем нужны сведения о расстояниях, а не только о внешнем виде объектов. Современные лазерные датчики дают лишь отдельные точки дистанции — слишком редкие для безопасной навигации или убедительной 3D-графики. В этой работе предложен новый способ «заполнить» недостающую глубинную информацию с помощью цветной камеры, получая детализированные карты расстояний, которые сохраняют чёткие границы объектов и не вводятся в заблуждение текстурами поверхностей.

Почему заполнить расстояния так сложно

Задача дополнения глубины превращает очень разрежённый набор измерений расстояния в полное глубинное изображение, используя обычную цветную фотографию как подсказку. Ранние системы часто напрямую смешивали цветовую и глубинную информацию внутри нейросети. Такое упрощение создаёт две противоположные проблемы. С одной стороны, сеть может «перенести» кирпичную кладку, полосы или логотипы из цветного изображения в карту глубины в виде ложных выпуклостей и впадин. С другой стороны, методы, которые слишком агрессивно сглаживают эти ложные детали, склонны размывать истинные границы между объектами — например контур автомобиля или дорожного знака. Баланс между детальностью и надёжностью стал главным препятствием для прикладных решений.

Figure 1
Figure 1.

Разделение форм и поверхностных деталей

Авторы предлагают иную стратегию: вместо смешивания цветовых и глубинных признаков они позволяют цветному изображению указывать, как следует фильтровать данные глубины, не смешивая две модальности напрямую. Сеть сначала обрабатывает разреженную глубину и цвет в отдельных ветвях. На ключевых этапах сети модуль, названный Guided Refinement Module, рассматривает цветовые признаки через частотную призму. С помощью вейвлет-преобразования он разделяет цветовую информацию на плавные низкочастотные составляющие, которые фиксируют крупные формы и медленно меняющиеся области, и высокочастотные составляющие, которые передают резкие контуры и тонкие текстуры, такие как листья или оконные рамы.

Умные фильтры, адаптирующиеся к каждой области

После такого разделения цветовой информации метод обучает семейство небольших фильтров разных размеров. Для каждой области и каждой частотной полосы сеть выбирает, какого размера фильтр применить и с какой силой его использовать. Крупные фильтры предпочитают в гладких областях, где глубина должна меняться постепенно — они помогают распространять надёжные измерения по пустым регионам. Небольшие фильтры применяются рядом с сильными краями, чтобы карта глубины сохраняла чёткие границы вместо размазывания одного объекта в другой. Важно, что фильтры всегда комбинируют только значения глубины с другими значениями глубины; цветовые данные лишь управляют тем, какой фильтр применить и где. Такая «операторная, но не значимостная» связь действует как узкое место, предотвращающее перенесение поверхностных текстур цветного изображения в виде ложных глубин.

Figure 2
Figure 2.

Доверять надёжным сигналам и сдерживать неопределённость

Даже при адаптивной фильтрации некоторые области остаются неопределёнными — представьте далёкие объекты, видимые сквозь дождь, или зоны с очень небольшим числом лазерных точек. Для этого сеть использует второй механизм, который сравнивает промежуточные глубинные признаки с ранних и поздних этапов. Ранние признаки ближе к сырым данным сенсора и несут информацию о том, какие области можно считать надёжными. Модель строит маски внимания, которые подчёркивают, где структура надёжна и какие каналы признаков наиболее важны. Эти маски затем мягко усиливают уверенные детали и ослабляют сомнительные изменения, внесённые позднее в конвейере, уменьшая чрезмерное сглаживание и посторонние артефакты.

Доказанный прогресс на дорогах и в интерьерах

Авторы проверяют свой подход на двух стандартных наборах: KITTI для уличных сцен и NYUv2 для помещений. Их метод последовательно сопоставим или превосходит ведущих конкурентов по нескольким метрикам ошибки, при этом использует меньше параметров, чем некоторые тяжёлые модели. Особенно хорошо он работает при крайне разреженных измерениях глубины, например при моделировании дешёвых лазерных сенсоров с несколькими сканирующими линиями или отдельными точками. Визуальные сравнения показывают, что тонкие структуры, такие как фонарные столбы, сохраняются аккуратно, а автомобили и мебель чётче отделяются от фона с гораздо меньшим числом ложных рябей из-за копирования текстур.

Что это значит для реального 3D‑зрения

Переосмыслив способ, которым цветные изображения направляют дополнение глубины, эта работа показывает, что можно сохранить полезные подсказки от цвета — такие как края и общая компоновка — без переноса вводящих в заблуждение текстур. Ключ в использовании частотного анализа и тщательно ограниченных взаимодействий, чтобы цвет определял, как комбинируются значения глубины, а не какие должны быть сами значения. В результате роботы, транспортные средства и AR‑устройства могут получать более плотные, более чёткие карты глубины с тех же разрежённых сенсоров, делая навигацию безопаснее и 3D‑опыт стабильнее в повседневной жизни.

Цитирование: Wang, H., Tang, Z., Pawara, P. et al. RGB-conditioned frequency domain refinement for sparse-to-dense depth completion. Sci Rep 16, 10757 (2026). https://doi.org/10.1038/s41598-026-45432-1

Ключевые слова: дополнение глубины, лидар, 3D-восприятие, компьютерное зрение, автономное вождение