Clear Sky Science · zh

使用 YOLOv4 与 DeepSORT 预测集会与人群疏散流动

· 返回目录

为什么从高处观察人群很重要

当数百万人聚集在同一地点时,哪怕是一点绊倒或突然的涌动,也能在数秒内变得危险。沙特阿拉伯的年度朝觐与小朝吸引多达四百万信众,形成地球上最为密集的人群之一。本文探讨了人工智能如何通过摄像头监视这些庞大的流动人群,自动计数、跟踪他们的移动,并在危险拥堵形成之前向管理者发出警告。

大型集会,巨大风险

传统的人群控制依赖人工观察、固定隔离设施和精心规划的通行路线。但人的目力会疲劳,人群行为也常常出人意料。在朝觐期间,信众在通道、道路与广场间往返,这些地点很容易形成瓶颈。作者认为,为了提升安全性,监管人员需要能够实时看到整体情况的工具:哪里人群密集,哪里正在稀疏,进出某一区域的速度如何。

教计算机看懂人

为构建这样的工具,研究者使用了两种先进的计算机视觉方法。第一种称为 YOLOv4,用于在图像中识别行人,通过在每个人周围画框来检测他们,即便在高度拥挤的场景中也能做到。第二种称为 DeepSORT,接收这些检测结果并在多个视频帧中追踪每个人,为每人分配一个隐形 ID,从而能够在时间维度上还原他们的轨迹。团队汇集了 2019 年朝觐期间在阿拉法特山周边多个区域拍摄的大量图像与视频,人工标注了数万个人头与人体,剔除了模糊素材,并通过小幅变换扩增数据,使系统在不同光照、角度与人群密度下依然可靠。

Figure 1
Figure 1.

从移动点到人群等级

一旦系统能够识别并追踪个体,它就能将这些移动点转化为关于人群行为的图景。通过统计进出某一区域的人数以及他们的拥挤程度,系统将人群密度划分为三个直观等级:低、中、高。管理者不必再依赖粗略估算或延迟报告,而是可以实时看到哪里人群在平稳散开,哪里关键的瓶颈正在形成。由于 DeepSORT 专为应对人员互相遮挡与外观相似(如朝觐者多为白色服装)的情况设计,它能在密集且视觉上混乱的场景中保持稳定追踪。

系统性能如何

作者进行了充分测试。他们比较了 YOLO 系列的多个版本以及不同的追踪方法,最终发现 YOLOv4 与 DeepSORT 的组合在真实朝觐视频上表现最佳。经过模型调优并在精心整理的数据集上训练后,YOLOv4 对行人的检测准确率超过 95%,在漏检与误报之间取得了很好的平衡。DeepSORT 对个体的追踪准确率超过 91%,即使个体短暂被他人遮挡也能恢复其轨迹。与用于交通监控、社交距离监测或其他人群场景的类似系统相比,这一针对朝觐场景的方法在如此具挑战性的环境中达到了或超过了已报道的最佳结果。

Figure 2
Figure 2.

实际应用可能带来的影响

在实践中,这样的系统可以部署在现有监控摄像头后端,持续监测朝觐者的流动。当某条通道人数接近安全上限,或某个广场开始出现不均匀聚集时,软件可提醒相关人员调整隔离设施、重新引导人流或向地面志愿者发送信息。除安全外,同样的数据可用于优化医疗队、洗手间与交通连接点的布置,帮助规划者基于真实数据而非臆测来重新设计未来的路线。作者还指出,这一方法同样可应用于大型体育赛事、音乐会或节庆活动。

更智能、更安全的人群引导方式

对非专业读者来说,关键信息很直接:计算机如今能比任何人工团队更仔细、持续地监视大规模人群,将原始视频转化为早期预警与可操作的建议。通过将人员检测与追踪整合到一个稳健系统中,这项研究表明可以实时监控数百万信众的流动状况,判定各区域的拥挤等级,并在情况变得危险之前采取行动。如果进一步开发并负责任地部署,这类工具有望让大型宗教集会与其他群众活动更安全、流畅且压力更小。

引用: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7

关键词: 人群管理, 计算机视觉, 朝觐安全, 目标追踪, 深度学习