Clear Sky Science · ru

Регуляризация проекционного ядра для диффузионной мультимодальной сегментации дистанционного зондирования

· Назад к списку

Более чёткие карты с высоты

Современные города наблюдаются сверху флотилиями самолётов и спутников, которые фиксируют не только цветные фотографии, но и трёхмерную информацию о высоте. Преобразование этого богатого набора данных в точные карты зданий, дорог, деревьев и автомобилей жизненно важно для планирования, реагирования при бедствиях и экологического мониторинга. В этой работе предлагается новый способ объединять разные представления и очищать зашумлённые прогнозы, что даёт более чёткие и надёжные карты покрытий земли на основе аэросъёмки.

Figure 1
Figure 1.

Почему объединять виды сверху сложно

Системы аэрокартирования обычно комбинируют два основных типа входных данных: ортофотопланы, которые выглядят как детализированные цветные изображения поверхности, и цифровые модели поверхности, фиксирующие высоту каждой точки. Фотографии богаты текстурами и цветом, но могут искажаться тенями и перспективой. Карты высот описывают формы зданий и крон деревьев, но могут быть шумными или грубыми по разрешению. Традиционные методы глубокого обучения либо конкатенируют эти входы, либо сливают их простыми способами. В результате может возникать несоответствие между геометрией и текстурой, размытие границ объектов и потеря мелких деталей, например автомобилей, особенно в плотной городской застройке.

От шумных предположений к уточнённым сценам

Авторы опираются на диффузионные модели — класс алгоритмов, которые начинают с зашумлённого предсказания и многократно уточняют его до более чистого результата. Вместо того чтобы рассматривать сегментацию как одноразовое решение, модель делает множество небольших шагов, постепенно улучшая карту того, какой пиксель к какому классу принадлежит. В их фреймворке, названном PKDiff, это уточнение направляется двумя ключевыми идеями: более умным способом слияния фото- и высотной информации и новым способом гарантировать, что общая картина предсказаний согласуется с ожидаемой по всему изображению, а не только по отдельным пикселям.

Figure 2
Figure 2.

Помощь в согласовании изображений и высот

Чтобы лучше комбинировать преимущества фото- и высотных данных, модель использует модуль слияния с двойным энкодером и перекрёстным вниманием (Cross-Attention Dual-Encoder Fusion). Одна ветвь сосредоточена на цвете и текстуре, другая — на высоте и структуре. На крупных масштабах информация о высоте направляет модель к правильной общей планировке — где должны располагаться здания, дороги и парки. На более мелких масштабах различия в высоте вдоль границ помогают заострять контуры, например линий крыш или границ между деревьями и травой. Отдельный компонент для удаления шума, называемый иерархическим рекурсивным денойзером с EMA-заслонкой (Hierarchical EMA-Gated Recursive Denoising), передаёт информацию между масштабами и временными шагами, решая, насколько доверять новым уточнениям по сравнению с прошлым оценками. Это уменьшает риск того, что ранние ошибки будут усиливаться при итерациях модели.

Согласование общей картины, а не только отдельных пикселей

Большинство существующих методов обучают модели с функциями потерь, которые оценивают каждый пиксель отдельно, например кросс-энтропия или среднеквадратичная ошибка. Такие подходы улучшают локальную точность, но могут по-прежнему давать предсказания, статистически несбалансированные по всему изображению — например, завышая площади дорог или недооценивая растительность. Центральный вклад этой работы — регуляризатор проекционного ядра, который измеряет, насколько хорошо общая распределённость предсказанных классов согласуется с истинной. Он делает это, рассматривая вектор вероятностей класса каждого пикселя как точку в многомерном пространстве, проецируя эти точки в множество одномерных направлений и сравнивая, как различаются наборы проекций. Вместо случайной выборки направлений авторы выводят аккуратную закрытую форму, которая эффективно агрегирует различия по всем направлениям, делая меру одновременно стабильной и чувствительной к тонким сдвигам.

Лучшие границы и более согласованные карты

Авторы протестировали свой метод на двух известных городских бенчмарках из немецких городов Вайхинген и Потсдам, которые включают изображения очень высокого разрешения и карты высот вместе с точными метками для поверхностей, зданий, растительности, деревьев, автомобилей и мусора. По нескольким стандартным метрикам точности PKDiff превосходит ряд сильных сверточных, трансформерных и других диффузионных моделей. Преимущества особенно заметны в категориях, где геометрия имеет наибольшее значение — например, здания, низкая растительность и мелкие автомобили: границы становятся более чёткими, объекты реже фрагментируются, а крупные области, такие как дороги, маркируются более последовательно. Проще говоря, за счёт тщательного слияния текстуры и высоты и одновременного обеспечения того, чтобы предсказания «выглядели правильно» в агрегате, предложенный подход даёт более чистые и надёжные карты из сложных аэрофотоданных.

Цитирование: Tong, X., Yang, F., Yang, Q. et al. Projection Kernel regularization for diffusion-based multimodal remote sensing segmentation. Sci Rep 16, 14385 (2026). https://doi.org/10.1038/s41598-026-44603-4

Ключевые слова: сегментация дистанционного зондирования, мультимодальное слияние, диффузионные модели, картирование городов, аэросъёмка