Clear Sky Science · zh

RFGLNet:通过频域低秩增强实现恶劣天气下的域泛化语义分割

· 返回目录

在天气变坏时看清道路

自动驾驶汽车和配送机器人承诺带来更安全、更高效的街道——前提是它们能可靠地“看见”周围的世界。雨、雾、雪和黑夜会极大地削弱这种视觉,降低对比度、增加噪点并模糊行人、车辆和路缘的边界。本文提出了 RFGLNet,一种新的计算机视觉系统,旨在在最恶劣的天气条件下仍保持机器对道路环境的清晰理解。

Figure 1
Figure 1.

为何恶劣天气会使机器失明

如今的自动驾驶系统通常依赖一种称为语义分割的过程,算法会为图像中的每个像素分配一个类别——例如道路、车辆、行人或建筑。在晴朗白天,现代神经网络在这项任务上表现出色。但在大雨或浓雾下,图像会失去亮度、增添噪声,并在物体之间产生模糊边界。为每一种恶劣天气收集和标注大规模数据集代价极高,因此大多数系统主要在正常的晴天图像上训练。当它们遇到未见过的风暴或降雪时,性能会骤降。早期的解决方法要么先清理图像再进行分割,要么针对特定目标条件调整模型,这两种方法往往脆弱、缓慢或过度依赖有标注的恶劣天气数据。

为艰难环境设计的新网络

RFGLNet 采用不同的策略来解决这一问题:仅从常规白天城市场景中学习,但能泛化到广泛的严酷条件。作者以 DINOv2 为起点,这是一种预训练的大型视觉模型,擅长捕捉丰富的场景结构。与从头重训练这一重量级主干网络不同,他们冻结了其参数,并在其之上添加了一组轻量模块。这些模块类似于智能适配器,重塑主干网络的内部表征,使其不易被雪花、雨滴或黑暗引起的视觉杂波所干扰。结果是一个仅使用 4.32M 可训练参数的系统——与典型视觉模型相比非常小——却能学习处理训练时从未见过的天气。

网络如何学习滤除天气干扰

RFGLNet 的第一个创新是一个低秩模块,它插入到冻结主干的每一层中。训练前,该模块对一个模拟的特征矩阵执行奇异值分解(SVD)这一数学过程,从而得到一组紧凑的分量,这些分量从一开始就大致匹配 DINOv2 内部特征的结构,而不是从随机噪声开始。在训练过程中,这些分量会被微调,使模块能够在不破坏主干核心知识的情况下,温和地校正其特征。随后,网络应用了基于傅里叶的注意力模块,将特征转换到频域。在频域中,宽广、缓变的结构往往代表有意义的物体,而尖锐、无规则的模式通常对应天气噪声。通过抑制高频杂波并增强更平滑的成分,系统强化了全局场景理解,同时削弱了干扰。

在不被干扰的前提下锐化细节

即便全局特征更干净,车道标线、栅栏横梁以及远处行人的轮廓等微小细节在恶劣天气下仍易被模糊。为了解决这一问题,作者在网络的解码器部分引入了分组空间注意力模块。该模块不是把所有通道一起处理,而是将它们分为若干组,并为每组学习单独的空间权重图。那些携带重要结构信息(如边缘)的通道可以被强调,而被噪声主导的通道则被抑制。这些组特定的权重图最终融合为全局空间加权,在多尺度上增强细节并锐化目标边界。实际上,RFGLNet 学会了在哪里仔细观察、在哪里忽略雾滴或雨点等干扰性小斑点。

Figure 2
Figure 2.

在具有挑战性的道路场景中的现实收益

为了验证方法,研究人员在著名的 Cityscapes 清晰白天城市场景数据集上训练了 RFGLNet,然后在聚焦雨、雪、雾和夜间驾驶的 ACDC 数据集上进行评估。训练期间从未见过 ACDC 的标注,RFGLNet 仍达到了 78.3% 的平均交并比(mIoU)——优于若干领先的域泛化和适配方法,它们中许多在规模和计算需求上更大。RFGLNet 在分割诸如墙体和栅栏等在恶劣天气下易丢失边缘的困难类别上尤其表现突出。同时,该模型能在单块消费级 GPU 上高效运行,每秒处理数十帧,这对实时驾驶系统至关重要。

为更安全的自动系统带来更清晰的视觉

对于非专业读者,结论是 RFGLNet 展示了如何在无需对每一种可能的风暴进行无休止重训练的情况下,升级现有的视觉主干以提高自动系统的安全性。通过结合紧凑的低秩微调、基于频域的噪声过滤和分组空间注意力,该系统学会在保留关键场景结构的同时清除与天气相关的杂波。随着此类方法的成熟并在更广泛的实际条件集合上训练,它们有望帮助自动驾驶汽车和机器人在天空变暗、前方道路充满不确定时仍维持可靠的态势感知。

引用: Ye, X., Shi, X. & Li, Y. RFGLNet for adverse weather domain-generalized semantic segmentation with frequency low-rank enhancement. Sci Rep 16, 8253 (2026). https://doi.org/10.1038/s41598-026-39052-y

关键词: 自动驾驶, 恶劣天气感知, 语义分割, 计算机视觉鲁棒性, 域泛化