Clear Sky Science · zh

SAM2-ARAFNet:将 SAM2 适配为带注意力增强残差 ASPP 融合网络的高分辨率遥感语义分割方法

· 返回目录

以更清晰的视角观察我们变化的星球

从跟踪风暴破坏到为城市规划提供依据,航空与卫星影像已成为人类理解世界的强大工具之一。但要把这些精细影像转换为建筑、道路、树木和车辆等清晰的地图仍然颇具挑战,尤其是在无人机或小型设备上要求计算快速执行时。本文提出了 SAM2‑ARAFNet,一种新的制图系统,它建立在强大的视觉模型之上并对其进行谨慎裁剪,旨在从高分辨率影像生成高度准确的地表覆盖图,同时比当前领先方法使用更少的计算资源。

Figure 1
Figure 1.

为什么从高空绘制城市地图如此困难

高分辨率航空照片以惊人的细节捕捉城市景观:独立的房屋、树冠、停放车辆甚至狭窄的人行道都清晰可见。然而,这种丰富性也带来挑战。属于同一类别的表面(例如不同类型的铺装)可能看起来差别很大,而本质不同的类别(如低矮灌木和树冠)可能显得非常相似。影像可能模糊、被阴影或云层部分遮挡,并且在不同区域之间存在显著差异。传统的规则方法和早期的机器学习系统难以应对这种多样性,即便是现代深度网络也通常需要大量标注数据和强大的硬件,从而限制了它们在卫星、无人机和边缘设备上的应用。

将通用视觉模型适配到遥感领域

最近的视觉“基础模型”在大量日常照片上训练,已展示出在图像中几乎分割任何对象的惊人能力。其中最强大的之一是 Segment Anything Model 2(SAM2),它可以在不预先指定对象类别的情况下绘制对象轮廓。然而,SAM2 针对的是自然影像并生成类别无关的区域,这使其不太适合需要为每个像素分配特定地表覆盖标签的遥感任务。因此,作者设计了 SAM2‑ARAFNet:在保持 SAM2 强大编码器参数冻结的同时,加入轻量级适配模块,温和地调整其内部表征以契合航空影像的独特外观。这样既避免了从头重训庞大主干,又能将其定制化到遥感领域。

同时把握全局语境与细节

为将编码特征转换为完整的地表覆盖图,SAM2‑ARAFNet 使用专门设计的解码器,融合多尺度信息。在较低层次,它通过多分支融合早期特征并配合注意力模块来保留锐利边缘和小目标,强调有信息的模式并抑制噪声。在较高层次,它引入了注意力增强残差模块,将“感受野”扩展到越来越大的邻域,帮助网络理解建筑、道路与植被之间的广泛上下文关系。随后一个双向融合块将低层细节与高层语义汇聚,使得例如车辆轮廓保持清晰的同时,能够正确区分邻近的屋顶或沥青路面。

教一个更小的网络模仿更大的网络

尽管完整的 SAM2‑ARAFNet 在精度上表现优异,但其规模仍然使得在机载设备上部署比较沉重。为此,作者训练了一个基于 EfficientNet‑b0 主干的紧凑“学生”网络,来模仿大型“教师”模型的预测。学生并非仅复制最终标签,而是从教师更丰富的输出模式中学习,捕捉不同类别之间的关联以及同类像素在场景中呈现的行为。这一知识蒸馏过程将参数数量从约 2.23 亿缩减约 97%,降至 670 万左右,同时整体精度保留了教师模型超过 99% 的性能。结果是一个更轻量但仍能产生高质量分割、适用于无人机和其他边缘平台的模型。

Figure 2
Figure 2.

在真实城市中效果如何?

团队在两个人们广泛使用的城市航空影像基准上评估了教师和学生模型:ISPRS Vaihingen 和 Potsdam 数据集。与基于卷积网络、Transformer 以及混合设计的一系列强劲竞争者相比,SAM2‑ARAFNet 在常用的分割质量指标上始终取得更高的得分。它在处理诸如被建筑部分遮挡的车辆,或低矮植被、树木与建筑立面周围杂物之间的微妙过渡等棘手情形上尤其有效。视觉对比显示其输出具有更清晰的对象边界和更少的误分区域,凸显了其多尺度注意力与融合设计的优势。

为资源受限的世界带来更智能的地图

通俗地说,这项工作展示了如何将一个强大但笨重的视觉模型适配并瘦身,从航空影像生成既准确又高效的地图。通过复用 SAM2 强健的编码器、精心设计多尺度注意力模块,并将所得知识蒸馏到轻量级学生模型,SAM2‑ARAFNet 在大幅降低计算成本的同时提供了详尽的城市地表覆盖图。这样的精度与效率平衡,使其成为在无法持续依赖云端连接的卫星、无人机或其他设备上进行环境监测、灾害评估和城市管理的一种有前景的工具。

引用: Shi, W., Ding, J., Lei, J. et al. SAM2-ARAFNet: adapting SAM2 with an attention-enhanced residual ASPP fusion network for high-resolution remote sensing semantic segmentation. Sci Rep 16, 10225 (2026). https://doi.org/10.1038/s41598-026-38047-z

关键词: 遥感, 语义分割, 卫星影像, 深度学习, 知识蒸馏