Clear Sky Science · ru

RFGLNet для домен-обобщённой семантической сегментации в плохую погоду с усилением низкого ранга в частотной области

2026-02-11 · Назад к списку

Видеть дорогу, когда погода портится

Автомобили с автопилотом и доставочные роботы обещают более безопасные и эффективные улицы — но только если они надёжно «видят» окружающий мир. Дождь, туман, снег и тёмные ночи сильно затрудняют это зрение: они стирают контраст, добавляют шум и размывают контуры людей, машин и бордюров. В этой статье представлен RFGLNet — новая система компьютерного зрения, созданная для того, чтобы сохранять чёткость машинного понимания дороги даже в самых жестких погодных условиях.

Почему плохая погода ослепляет машины

Современные системы автономного вождения часто опираются на процесс, называемый семантической сегментацией, при котором алгоритм присваивает каждому пикселю изображения класс — например дорога, автомобиль, пешеход или здание. При ясном дневном свете современные нейросети справляются с этим очень хорошо. Однако при сильном дожде или густом тумане изображения теряют яркость, накапливается шум и возникают расплывчатые границы между объектами. Собирать и размечать огромные наборы данных для каждого неблагоприятного погодного состояния экономически нецелесообразно, поэтому большинство систем обучают в основном на нормальных солнечных изображениях. При столкновении с непривычной бурей или снегом производительность резко падает. Ранние решения либо пытались сначала очистить изображение, а затем сегментировать его, либо адаптировали модели под конкретные целевые условия. Оба подхода часто оказываются хрупкими, медленными или чрезмерно зависят от размеченных данных в плохую погоду.

Новая сеть, созданная для тяжёлых условий

RFGLNet решает эту проблему другим способом: модель обучается только на стандартных дневных городских сценах, но обобщает своё поведение на широкий спектр суровых условий. Авторы берут в основу DINOv2 — крупную предобученную визуальную модель, известную тем, что улавливает богатую структуру сцен. Вместо того чтобы дообучать этот тяжёлый бэкенд с нуля, они замораживают его параметры и добавляют лёгкий набор модулей сверху. Эти модули работают как умные адаптеры, изменяя внутренние представления бэкенда так, чтобы они меньше путались из‑за визуального шума от снежинок, капель дождя или темноты. В результате получается система, в которой обучаемых параметров всего 4,32 миллиона — крошечное число по сравнению с типичными визуальными моделями — при этом она учится справляться с погодой, которой никогда не видела при обучении.

Как сеть учится фильтровать погоду

Первая инновация RFGLNet — модуль низкого ранга, встраиваемый в каждый слой замороженного бэкенда. До обучения этот модуль выполняет математическую процедуру, известную как сингулярное разложение (SVD), на смоделированной матрице признаков. Это даёт набор компактных компонент, которые с самого начала примерно соответствуют структуре внутренних признаков DINOv2, вместо того чтобы начинать с случайного шума. Во время обучения эти компоненты корректируются, позволяя модулю мягко править признаки бэкенда для новой задачи, не нарушая его базовых знаний. Затем сеть применяет блок внимания на основе преобразования Фурье, переводя признаки в частотную область. Там широкие, медленно меняющиеся структуры обычно представляют значимые объекты, а резкие, беспорядочные паттерны часто соответствуют погодному шуму. Подавляя высокочастотный «мусор» и усиливая более гладкие компоненты, система укрепляет глобальное понимание сцены и ослабляет помехи.

Уточнение деталей без отвлечения

Даже при очистке глобальных признаков мелкие детали — полосы разметки, прутья ограждений, контур удалённого пешехода — остаются уязвимыми к размытию в плохую погоду. Чтобы справиться с этим, авторы вводят модуль группового пространственного внимания в декодере сети. Вместо того чтобы обрабатывать все каналы признаков вместе, он делит их на группы и обучает отдельные пространственные карты весов для каждой группы. Каналы, несущие важную структуру, например грани, могут быть подчеркнуты, тогда как каналы, доминируемые шумом, приглушаются. Эти картографические веса по группам сливаются в глобальное пространственное взвешивание, которое усиливает мелкие детали и уточняет границы объектов на разных разрешениях. По сути, RFGLNet учится, где смотреть внимательнее, а где игнорировать отвлекающие частицы тумана или дождя.

Реальная отдача на сложных дорожных сценах

Для проверки подхода исследователи обучили RFGLNet на известном наборе Cityscapes с ясными дневными городскими сценами, а затем оценили его на наборе ACDC, ориентированном на дождь, снег, туман и ночную езду. Никогда не видя разметки ACDC при обучении, RFGLNet достиг среднего пересечения по объединению (mIoU) 78,3 процента — превзойдя несколько ведущих методов домен-обобщения и адаптации, многие из которых крупнее и более ресурсоёмкие. Модель оказалась особенно сильной в сегментации сложных классов, таких как стены и заборы, чьи грани легко теряются в плохую погоду. В то же время модель работала эффективно на одной потребительской GPU, обрабатывая десятки изображений в секунду — ключевое требование для систем автономного вождения в реальном времени.

Более чёткое зрение для безопасной автономии

Для неспециалистов главный вывод состоит в том, что RFGLNet показывает, как можно модернизировать существующие визуальные бэкенды для более безопасной автономности без бесконечного дообучения на каждой возможной буре. Комбинируя компактную низкоранговую настройку, фильтрацию шума в частотной области и групповое пространственное внимание, система учится сохранять важную структуру сцены, одновременно отбрасывая погодные помехи. По мере того как такие методы будут развиваться и обучаться на более широких наборах реальных условий, они могут помочь самоуправляемым автомобилям и роботам поддерживать надёжную ситуационную осведомлённость, когда небо темнеет, а дорога впереди далеко не ясна.

Цитирование: Ye, X., Shi, X. & Li, Y. RFGLNet for adverse weather domain-generalized semantic segmentation with frequency low-rank enhancement. Sci Rep 16, 8253 (2026). https://doi.org/10.1038/s41598-026-39052-y

Ключевые слова: автономное вождение, восприятие в неблагоприятных погодных условиях, семантическая сегментация, устойчивость компьютерного зрения, обобщение по доменам