Clear Sky Science · zh
用于基于扩散的多模态遥感分割的投影核正则化
来自高空的更清晰地图
现代城市受到飞机和卫星编队的监测,不仅获取丰富的彩色影像,还记录了三维高度信息。将这些多源数据转换为精确的建筑、道路、树木和车辆等地物地图,对于城市规划、灾害响应和环境监测至关重要。本文提出了一种新的方式来融合这些不同视角并清理噪声预测,从航空影像中生成更清晰、更可靠的地表覆盖图。

为什么空中视角融合很难
航拍制图系统通常结合两类主要输入:正射影像,看起来像地面的细节彩色图像;以及数字表面模型,记录每个点的高度。照片在纹理和颜色上信息丰富,但可能被阴影和视角变形影响;高度图能反映建筑形状和树冠结构,但可能有噪声或分辨率较低。传统的深度学习方法要么把这些输入简单堆叠,要么以粗糙的方式融合。因此它们可能导致几何与纹理错位、物体边界模糊,并容易漏检诸如汽车等小尺度目标,尤其在密集城市场景中更为明显。
从嘈杂猜测到精炼场景
作者基于扩散模型,这类算法从嘈杂的预测开始,经过多次迭代逐步精化至更清晰的结果。与将分割视为一次性决策不同,模型通过许多小步长逐步改善像素所属类别的图谱。在他们提出的框架 PKDiff 中,这一精化过程由两个关键思想引导:一种更智能的照片与高度信息融合方式,以及一种新的机制以确保预测的整体分布在整幅图像上符合预期,而不仅仅是逐像素匹配。

让影像与高度信息更好配合
为更好地结合影像和高度数据的优势,模型采用了交叉注意力双编码器融合模块。一个分支专注于颜色与纹理,另一个关注高度与结构。在粗尺度上,高度信息引导模型朝正确的总体布局移动——例如建筑、道路和公园的大致位置;在细尺度上,沿边缘的高度差有助于锐化边界,例如屋脊线或树与草地之间的分界。另一个独立的去噪组件,称为分层 EMA 门控递归去噪,跨尺度与时间步传递信息,决定在每步中应多大程度信任新的精化结果与先前估计。这降低了早期错误在迭代过程中被不断放大的风险。
对齐整体格局,而非仅仅单个像素
现有大多数方法使用逐像素的损失进行训练,如交叉熵或均方误差。这些损失可以提升局部准确性,但可能仍导致整幅图像的统计不平衡——例如高估道路面积或低估植被覆盖。本文的核心贡献是提出了一种投影核正则化项,用以衡量预测类别的整体分布与真实分布的匹配度。它将每个像素的类别概率视为高维空间中的一点,把这些点投影到许多一维方向上,然后比较两组投影的差异。作者没有随机采样这些方向,而是推导出一个整洁的闭式公式,能高效地跨所有方向聚合差异,使该度量既稳定又对细微分布偏移敏感。
更清晰的边界与更一致的地图
作者在两个著名的德国城镇城市基准数据集(Vaihingen 和 Potsdam)上测试了他们的方法,这些数据包含非常高分辨率的影像与高度图,并带有地面真实标签,覆盖地表、建筑、植被、树木、车辆和杂物等类别。在多项标准精度指标上,PKDiff 优于多种强基线,包括卷积网络、基于 Transformer 的模型以及其他扩散模型。在几何信息尤为重要的类别上(如建筑、低矮植被和小型车辆),性能提升尤为明显:边界更锐利、物体碎片化更少、大面积区域(如道路)标注更一致。简而言之,通过在精细融合纹理与高度的同时强制其预测在整体上“看起来正确”,该方法能从复杂的航空数据中产出更干净、更可信的地图。
引用: Tong, X., Yang, F., Yang, Q. et al. Projection Kernel regularization for diffusion-based multimodal remote sensing segmentation. Sci Rep 16, 14385 (2026). https://doi.org/10.1038/s41598-026-44603-4
关键词: 遥感分割, 多模态融合, 扩散模型, 城市制图, 航空影像