Clear Sky Science · zh

Sen2GF3Floods:一个具有双时序与主动学习标注的多源洪水基准数据集

· 返回目录

为何更智能的洪水地图至关重要

洪水是最具破坏性的自然灾害之一,但当河流漫溢或城市被骤雨淹没时,应急团队仍然难以准确判断水势蔓延的范围。本文介绍了 Sen2GF3Floods —— 一个新的、大规模的卫星影像与机器可读洪水地图集合,旨在帮助人工智能(AI)快速且可靠地追踪洪水。通过融合灾前与灾后不同类型的卫星观测,并采用一种节约成本的洪水标注方法,该工作旨在让实时、高质量的洪水制图更广泛可用。

以新方式从太空观测水域

长期以来,基于卫星的洪水制图主要依赖两类数据。光学影像,类似高分辨率照片,可清晰显示河道、田地和街区——但云层和强降雨常在洪水发生时挡住视线。雷达影像通过发射微波并接收地表反射信号,可穿透云层并在昼夜均能工作,但噪声较多且不易人为解读。Sen2GF3Floods 的研究者结合了两者的优势:利用灾前的清晰光学影像与灾中获取的雷达影像。光学图像提供了地貌在正常情况下的细节快照,而雷达影像则揭示了灾时水体实际扩散的位置。

Figure 1
Figure 1.

构建丰富的洪水事件库

要对现代 AI 技术有用,洪水数据集必须具有大规模、多样性并且标注精确——这正是 Sen2GF3Floods 提供的。该数据集采集了中国境内九次重大洪灾的卫星切片,涵盖河流、农田、城市与山地等场景。对于每个地点,团队收集了欧空局 Sentinel-2 光学卫星的四个波段和彩色波段,以及中国高分三号(Gaofen-3)任务的两个雷达波段,均为10米分辨率。这些影像被切成超过 21,000 个小瓦片,便于机器学习模型处理。每个瓦片都配有一个简单的标注图,标示哪些像素被洪水淹没、哪些未被淹没,使算法能学习正常水体、暂时泛滥、阴影与干地之间的微妙差异。

让计算机帮助决定专家该标注什么

制作此类数据集的一个主要瓶颈是手工描绘精确的洪水轮廓。为减轻这项工作量,作者设计了一个三步的双时序标注流程。首先,他们从灾前光学影像和灾后雷达影像自动生成粗略的常水图,然后比较两者以估计新出现的水域。接着,人工专家利用高分辨率底图对这些粗略图进行修正,纠正诸如稻田和狭窄水道等复杂区域。最后,他们训练一个分割网络——一个复杂的模式识别模型——来预测未标注瓦片上的洪水,并衡量模型的不确定性。只有那些模型“困难”的瓦片,即模型难以判断的样本,才会回到专家处进行精细标注。这样的训练-不确定性评估-定向修正循环使团队在控制人工工作量的同时扩大了数据集。

Figure 2
Figure 2.

检验机器从数据中学到多少

在数据集构建完成后,研究者评估了若干领先的图像分割模型,包括 U-Net、U-Net++、DeepLabV3+、DANet 与 SegFormer。总体而言,这些模型表现非常好,能正确分类绝大多数像素,并同时捕捉到广阔的泛滥平原与细小的河流分支。U-Net++ 在准确性与完整性之间提供了最佳的整体平衡。实验还探讨了更深入的问题:在精度不再显著提升之前,真正需要多少标注瓦片?哪种光学与雷达波段组合效果最佳?以及在不从头再训练的情况下,基于高分三号雷达训练的模型能否迁移到另一颗雷达卫星 Sentinel-1?结果表明,结合彩色与近红外光学波段与双雷达通道能产生最强的洪水地图,性能在约一千个标注瓦片时趋于平稳,并且在高分三号上训练的模型确实可以有希望地应用于 Sentinel-1。

这对未来洪水应对意味着什么

简单来说,Sen2GF3Floods 项目提供了一个高质量的“训练场”,用于洪水检测的 AI。通过将灾前的清晰地貌影像与灾时的雷达快照融合,并采用一种主动学习策略聚焦专家资源于最关键之处,作者构建了一个能让计算机在多种地形上快速且可靠识别洪水的数据集。这一基础有助于应急管理者和科学家在云层遮挡或数据来自不同卫星的情况下,用更少的手工劳动快速生成大范围洪水图。随着该方法向更多城市与农业区域扩展,卫星数据流有望成为保护人员与基础设施免受洪水侵袭的实用、近实时工具。

引用: Chen, W., Zhu, Y., Han, W. et al. Sen2GF3Floods: A Benchmark Multi-Source Flood Dataset with Dual-Temporal and Active Learning Annotation. Sci Data 13, 540 (2026). https://doi.org/10.1038/s41597-026-06929-6

关键词: 洪水制图, 遥感, 卫星影像, 深度学习, 灾害响应