Clear Sky Science · ru

Алгоритм семантической сегментации движущихся объектов на фоне динамики на основе сотрудничества генеративно-состязательной сети и трансформера

· Назад к списку

Чёткое видение в движущемся мире

От автономных автомобилей до интеллектуальных камер наблюдения — машинам всё чаще нужно понимать, что происходит в загруженных и быстро меняющихся сценах. Но для компьютера отделить движущегося человека от мерцающих фар, качающихся деревьев или размытия из‑за движения непросто. В этой работе представлен новый подход, позволяющий искусственному интеллекту выделять движущиеся объекты в сложном видео, даже когда сам фон движется, освещение плохое или изображение размыто.

Почему шумные сцены сбивают машины с толку

Наш мир редко бывает неподвижным. Машины проезжают под мигающими фонарями, толпы переплетаются, а дождь и тени постоянно меняют картину, которую видит камера. Традиционные системы компьютерного зрения разрабатывались для более спокойных сцен, где фон остаётся почти неизменным. В хаотичных кадрах они часто путают движущиеся объекты с фоновыми движениями или теряют след людей и транспортных средств при резких изменениях освещения или когда сама камера движется. Эти слабые стороны снижают безопасность автономного вождения и надёжность интеллектуального видеонаблюдения как раз в тех ситуациях, где точность особенно важна.

Две мощные идеи, работающие вместе

Чтобы преодолеть эти проблемы, авторы объединяют две влиятельные идеи в одну плотно связанную систему: одну, специализирующуюся на генерации реалистичных изображений, и другую, способную учитывать дальние взаимосвязи в данных. Первая — пара генератор–дискриминатор — учится синтезировать множество вариантов одной и той же сцены с различным освещением, движущимся размытием и движением фона. Это фактически создаёт богатую тренировочную площадку, где модель постоянно практикуется в сложных визуальных условиях. Вторая — модуль на основе трансформера — смотрит на всё изображение целиком и использует внутренний механизм внимания, чтобы определить наиболее значимые области, что позволяет связывать отдалённые части сцены и лучше отделять передний план от беспокойного фона.

Figure 1
Figure 1.

Баланс между фоновым шумом и деталями объектов

Ключевая инновация — способ, которым система решает для каждого региона изображения, сколько доверять моделированию фона и сколько — пониманию, ориентированному на объекты. Вместо простого последовательного соединения модулей авторы разработали «шлюзовую» (gated) стадию слияния, которая смешивает три источника информации: сгенерированный динамический фон, базовые визуальные признаки от стандартных фильтров изображения и высокоуровневую семантическую карту, выдаваемую трансформером. Обучаемый элемент управления плавно смещает акцент в сторону фоновой модели там, где помехи сильны, и в сторону признаков, сфокусированных на объектах, у границ машин, людей или других целей. Дополнительные ограничения поощряют генерируемые фоны оставаться семантически согласованными с реальными, так что тренировочные данные оказываются не только правдоподобными визуально, но и полезными для задачи.

Проследить движение во времени

Реальное видео — не просто набор отдельных кадров; движение несёт важные подсказки. Чтобы это учесть, в систему включён модуль временного внимания, который использует информацию о движении, полученную из оптического потока — метода оценки, как пиксели перемещаются между кадрами. Этот модуль помогает модели отслеживать объекты по мере их перемещения, частичного скрытия или повторного появления, сохраняя контуры стабильными на протяжении многих кадров. Авторы тестируют подход как на тщательно контролируемых виртуальных сценах — где можно варьировать освещение, скорость движения и загромождённость фона, — так и на известном наборе данных KITTI с уличными съёмками из реального мира.

Figure 2
Figure 2.

Что значат результаты на практике

Объединённая система демонстрирует более чёткое и надёжное разделение движущихся объектов и окружения по сравнению с несколькими широко используемыми методами. Она достигает большего среднего совпадения между предсказанными областями объектов и истинными областями, остаётся более стабильной при разных условиях освещения и движения и меньше колеблется во времени. Удаление любой ключевой составляющей — генератора изображений, трансформера или модулей слияния и временного внимания — заметно ухудшает результаты, что подчёркивает, что улучшение достигается их взаимодействием, а не единичным трюком. Хотя такая более сложная архитектура требует больше вычислений, она уже работает достаточно быстро для многих задач в реальном времени на современном графическом оборудовании. Практически это показывает: обучение машин «воображать» сложные сцены и избирательно, с учётом времени, распределять внимание позволяет им «видеть» ближе к тому, как видим мы, повышая безопасность и надёжность систем, которым нужно интерпретировать постоянно движущийся мир.

Цитирование: Li, Y., Luo, Z., Chen, T. et al. Dynamic background motion object semantic segmentation algorithm based on generative adversarial network and transformer collaboration. Sci Rep 16, 12626 (2026). https://doi.org/10.1038/s41598-026-39249-1

Ключевые слова: понимание динамических сцен, обнаружение движущихся объектов, визуальная система автономного вождения, видеосемантическая сегментация, устойчивость компьютерного зрения