Clear Sky Science · zh

基于生成对抗网络与Transformer协同的动态背景运动目标语义分割算法

2026-03-08 · 返回目录

在移动的世界中清晰地看见

从自动驾驶汽车到智能安防摄像头，机器越来越需要理解繁忙且快速变化场景中的情况。然而对于计算机来说，将移动的人与闪烁的车灯、摇摆的树木或运动模糊区分开并不容易。本研究提出了一种新的方法，使人工智能能够在复杂视频中识别运动目标，即使背景本身在运动、光线差或图像模糊时也能有效工作。

为何繁忙场景会使机器困惑

我们的世界很少静止。汽车在闪烁的街灯下行驶，人群相互穿行，雨水或阴影不断重塑摄像机所见。传统的计算机视觉系统设计用于更平静的视图，背景变化不大。在混乱的场景中，它们经常将移动目标与移动的背景模式混淆，或在光线突然变化或摄像机自身运动时丢失对人和车辆的跟踪。这些弱点限制了自动驾驶的安全性和智能监控在最需要准确性的情形下的可靠性。

两种强大思路的协同

为了解决这些问题，作者将两种有影响力的人工智能思想融合到一个紧密连接的系统中：一种擅长生成逼真图像，另一种擅长理解数据中的远程关系。第一种——生成器与判别器对——学习合成同一场景的多种版本，包含不同光照、运动模糊和背景运动。这有效地构建了一个丰富的训练场，让模型反复在困难的视觉条件下练习。第二种基于Transformer的模块一次性查看整张图像，并使用内部的注意力机制决定哪些区域最重要，从而关联场景中相距较远的部分，更好地区分前景目标与不安定的背景。

在背景噪声与目标细节之间取得平衡

一项关键创新是系统如何为图像的每个区域决定应信任背景建模还是面向目标的理解。作者没有简单地将一个模块堆叠到另一个模块之后，而是设计了一个“门控”融合步骤，将三类信息混合在一起：模拟出的动态背景、来自标准图像滤波器的基本视觉线索，以及Transformer产生的高层语义图。一个可学习的门在背景干扰最强的地方平滑地增加对背景模型的权重，而在汽车、行人或其他目标的边缘附近则倾向于强调面向目标的特征。额外的约束鼓励生成的背景在语义上与真实背景保持一致，使训练数据不仅在视觉上合理，而且对任务具有实际意义。

随时间跟踪运动

真实视频并非单帧帧的集合；运动携带着关键线索。为此，系统包含了一个时序注意力模块，引入来自光流的信息，光流是一种估计像素从一帧到下一帧如何移动的方法。该模块帮助模型在物体移动、部分被遮挡或重新出现时进行跟踪，保持其轮廓在多帧上的稳定性。作者在可精细控制的虚拟场景（可调节光照、运动速度和背景复杂度）以及著名的KITTI驾驶数据集（包含具有挑战性的真实街景视频）上验证了他们的方法。

结果在实践中的意义

该组合系统在将运动目标与周围环境分离方面，比若干广泛使用的方法提供了更清晰、更可靠的结果。它在预测目标区域与真实区域之间取得了更高的平均重叠度，在各种光照和运动条件下更稳定，随时间波动也更小。去掉任何主要组件——图像生成器、Transformer或融合与时序模块——都会显著削弱性能，强调了这些模块协同工作带来的改进，而非任何单一技巧。尽管这种更丰富的设计需要更多计算资源，但在现代图形硬件下已足够快以满足许多实时应用。实践上，这项工作表明，让机器“想象”具有挑战性的场景并进行有选择的、时间感知的注意力，使它们的“视角”更接近人类，从而提高了必须解释不断移动世界的系统的安全性和可靠性。

引用: Li, Y., Luo, Z., Chen, T. et al. Dynamic background motion object semantic segmentation algorithm based on generative adversarial network and transformer collaboration. Sci Rep 16, 12626 (2026). https://doi.org/10.1038/s41598-026-39249-1

关键词: 动态场景理解, 运动目标检测, 自动驾驶视觉, 视频语义分割, 计算机视觉鲁棒性