Clear Sky Science · zh

用于基于扩散的多模态遥感分割的投影核正则化

2026-03-21 · 返回目录

来自高空的更清晰地图

现代城市受到飞机和卫星编队的监测，不仅获取丰富的彩色影像，还记录了三维高度信息。将这些多源数据转换为精确的建筑、道路、树木和车辆等地物地图，对于城市规划、灾害响应和环境监测至关重要。本文提出了一种新的方式来融合这些不同视角并清理噪声预测，从航空影像中生成更清晰、更可靠的地表覆盖图。

为什么空中视角融合很难

航拍制图系统通常结合两类主要输入：正射影像，看起来像地面的细节彩色图像；以及数字表面模型，记录每个点的高度。照片在纹理和颜色上信息丰富，但可能被阴影和视角变形影响；高度图能反映建筑形状和树冠结构，但可能有噪声或分辨率较低。传统的深度学习方法要么把这些输入简单堆叠，要么以粗糙的方式融合。因此它们可能导致几何与纹理错位、物体边界模糊，并容易漏检诸如汽车等小尺度目标，尤其在密集城市场景中更为明显。

从嘈杂猜测到精炼场景

作者基于扩散模型，这类算法从嘈杂的预测开始，经过多次迭代逐步精化至更清晰的结果。与将分割视为一次性决策不同，模型通过许多小步长逐步改善像素所属类别的图谱。在他们提出的框架 PKDiff 中，这一精化过程由两个关键思想引导：一种更智能的照片与高度信息融合方式，以及一种新的机制以确保预测的整体分布在整幅图像上符合预期，而不仅仅是逐像素匹配。

让影像与高度信息更好配合

为更好地结合影像和高度数据的优势，模型采用了交叉注意力双编码器融合模块。一个分支专注于颜色与纹理，另一个关注高度与结构。在粗尺度上，高度信息引导模型朝正确的总体布局移动——例如建筑、道路和公园的大致位置；在细尺度上，沿边缘的高度差有助于锐化边界，例如屋脊线或树与草地之间的分界。另一个独立的去噪组件，称为分层 EMA 门控递归去噪，跨尺度与时间步传递信息，决定在每步中应多大程度信任新的精化结果与先前估计。这降低了早期错误在迭代过程中被不断放大的风险。

对齐整体格局，而非仅仅单个像素

现有大多数方法使用逐像素的损失进行训练，如交叉熵或均方误差。这些损失可以提升局部准确性，但可能仍导致整幅图像的统计不平衡——例如高估道路面积或低估植被覆盖。本文的核心贡献是提出了一种投影核正则化项，用以衡量预测类别的整体分布与真实分布的匹配度。它将每个像素的类别概率视为高维空间中的一点，把这些点投影到许多一维方向上，然后比较两组投影的差异。作者没有随机采样这些方向，而是推导出一个整洁的闭式公式，能高效地跨所有方向聚合差异，使该度量既稳定又对细微分布偏移敏感。

更清晰的边界与更一致的地图

作者在两个著名的德国城镇城市基准数据集（Vaihingen 和 Potsdam）上测试了他们的方法，这些数据包含非常高分辨率的影像与高度图，并带有地面真实标签，覆盖地表、建筑、植被、树木、车辆和杂物等类别。在多项标准精度指标上，PKDiff 优于多种强基线，包括卷积网络、基于 Transformer 的模型以及其他扩散模型。在几何信息尤为重要的类别上（如建筑、低矮植被和小型车辆），性能提升尤为明显：边界更锐利、物体碎片化更少、大面积区域（如道路）标注更一致。简而言之，通过在精细融合纹理与高度的同时强制其预测在整体上“看起来正确”，该方法能从复杂的航空数据中产出更干净、更可信的地图。

引用: Tong, X., Yang, F., Yang, Q. et al. Projection Kernel regularization for diffusion-based multimodal remote sensing segmentation. Sci Rep 16, 14385 (2026). https://doi.org/10.1038/s41598-026-44603-4

关键词: 遥感分割, 多模态融合, 扩散模型, 城市制图, 航空影像