Clear Sky Science · zh

YOLO-DC：使用可变形卷积网络与跨通道坐标注意力的车辆检测

2026-01-27 · 返回目录

为什么用摄像头识别车辆至关重要

现代城市依赖于监控繁忙道路的摄像头来管理交通拥堵，并为自动驾驶铺路。但在摄像头画面中可靠地识别每一辆车并不容易，尤其当车辆在远处很小、被拥堵部分遮挡，或被雨雾与黑暗模糊时。本文提出了YOLO‑DC，一种新的计算机视觉系统，旨在即便在嘈杂的现实环境和算力受限的设备上，也能快速且准确地检测汽车、巴士等车辆。

研究背后的交通问题

城市扩张带来道路拥堵、更多事故和上升的尾气排放。智能交通系统通过实时监控交通并为人类与自动驾驶者提供引导，有望缓解这些问题。核心要素是视频中快速且可靠的车辆检测。早期的“两个阶段”算法在多次扫描图像后能达到很高的精度，但往往太慢，无法在路边摄像头或车载设备上实现实时应用。更新的“单阶段”系统，如YOLO（You Only Look Once）系列，以较少的复杂性换取更高的速度，因此在实践中很受欢迎。然而，它们仍然在检测小型、重叠车辆以及被恶劣天气掩盖细节时表现欠佳。YOLO‑DC在最新的YOLOv8模型基础上对内部结构进行了重新设计，以更好地应对这些挑战。

YOLO‑DC如何通过更智能的关注看到更多

YOLO‑DC的核心是改进的“骨干”网络，即将原始图像转化为抽象特征的第一部分。作者引入了一种称为跨通道坐标注意力的机制，它不仅有效地教会网络在图像中“在哪里看”，还指示哪些类型的视觉模式应获得更高权重。结合所谓的可变形卷积——能够弯曲采样模式以跟随倾斜或形状不规则的车辆——这个骨干能更好地适应不同角度、尺度和位置下的车辆。系统不再平均对待道路的每一块区域，而是学会强调区分真实车辆与建筑、树木或路面标记的关键轮廓和纹理。

在不降低速度的情况下捕捉小而远的车辆

模型的中间部分，称为颈部，负责融合粗略的广角视图与细致的近景信息。YOLO‑DC在该阶段做了两方面的升级。首先，一个通道先验注意力模块帮助网络抑制噪声并突出来自画面中远处微小车辆的细微信号。其次，受轻量级FasterNet架构启发的重新设计模块通过仅对部分数据应用完整卷积然后高效混合，减少了计算操作。这种细致的重设计同时降低了参数量和内存访问，使模型在提高精度的同时运行更快——对于路侧摄像机和车载计算等边缘设备而言，这是一种罕见但非常理想的组合。

在多尺度和恶劣天气下识别车辆

最后阶段或称为头部，负责判断物体的位置与类别。YOLO‑DC在此引入了多尺度分组卷积，将特征图分成几个通道组，各组使用不同的滤波器尺寸后再重组。这让检测器具备更丰富的尺度感知能力，从而能够同时识别充满画面的巨大公交车、中型卡车以及远处几乎不可见的小车。在包含阴天、晴天、雨天和夜间场景的UA‑DETRAC数据集上的大量测试表明，YOLO‑DC在精度上与顶级检测器不相上下或更优，同时只使用它们计算量的一小部分，并能在现代硬件上实现数百帧每秒的运行速度。在专门针对雾、雨、雪和沙尘暴的DAWN数据集上，该模型在强降雨和浓雾条件下带来了尤其显著的提升，而传统系统常在这些场景中失效。

这些结果对日常道路意味着什么

对非专业读者来说，主要结论是：YOLO‑DC更能“看到”真实交通的样子——拥挤、混乱且常被恶劣天气或光线不佳所遮挡。通过将跟随车辆形状的灵活滤波器与聚焦于最有信息区域的注意力机制结合，系统能检测到更多车辆、减少漏检，并以足够快的速度在中等算力硬件上进行实时视频分析。这使其成为更智能的交通管理、更可靠的事故监测和更安全的自动驾驶的有希望的基础，同时将处理成本控制在足以在城市道路和未来车辆广泛部署的水平。

引用: Liu, Z., Zhu, M., Gao, B. et al. YOLO-DC for vehicle detection using deformable convolutional networks and cross-channel coordinate attention. Sci Rep 16, 6284 (2026). https://doi.org/10.1038/s41598-026-37094-w

关键词: 车辆检测, 智能交通, YOLO, 恶劣天气, 实时视觉