Clear Sky Science · ru

Прогнозирование расходящихся потоков толпы и скоплений с помощью YOLOv4 и DeepSORT

· Назад к списку

Почему важно наблюдать за толпой сверху

Когда миллионы людей собираются в одном месте, простая осечка или внезапная толкотня могут за секунды превратиться в опасность. Ежегодные паломничества Хадж и Умра в Саудовской Аравии привлекают до четырех миллионов верующих, образуя одни из самых плотных скоплений людей на Земле. В этой работе исследуется, как искусственный интеллект может наблюдать за такими огромными движущимися массами через камеры: автоматически считать людей, отслеживать их перемещения и предупреждать власти до того, как возникнет опасное скопление.

Большие собрания — большие риски

Традиционное управление толпой опирается на человеческих наблюдателей, стационарные барьеры и заранее продуманные маршруты. Но человеческий взгляд утомляется, а поведение толпы часто непредсказуемо. Во время Хаджа паломники перемещаются между ключевыми священными точками по переходам, дорогам и открытым площадям, которые быстро становятся узкими горлышками. Авторы утверждают, что для повышения безопасности чиновникам нужны инструменты, которые в реальном времени видят общую картину: где плотность высокая, где люди рассеиваются и с какой скоростью они входят или покидают пространство.

Обучая компьютеры видеть людей

Для создания такого инструмента исследователи используют два передовых метода компьютерного зрения. Первый, YOLOv4, обучается обнаруживать людей на изображениях, обводя каждого человека рамкой даже в плотно packed сценах. Второй, DeepSORT, принимает эти детекции и отслеживает каждого человека в последовательности кадров, присваивая ему невидимый идентификатор, благодаря чему можно проследить путь человека во времени. Команда собрала большую коллекцию изображений и видео с Хаджа 2019 года, снятую в нескольких районах вокруг горы Арафат. Они тщательно размечали десятки тысяч голов и тел, отфильтровывали размазанные кадры и дополняли набор данных небольшими вариациями, чтобы система оставалась надежной при разных условиях освещения, углах съемки и плотности толпы.

Figure 1
Figure 1.

От движущихся точек к уровням плотности

Когда система научилась находить и следить за людьми, она может превращать эти движущиеся точки в картину поведения толпы. Считая, сколько людей входит и выходит из заданной зоны и насколько плотно они расположены, система классифицирует плотность толпы по трем понятным уровням: низкая, средняя и высокая. Вместо ориентировочных оценок или запаздывающих отчетов менеджеры могут видеть, где люди равномерно расходятся, а где формируются критические узкие места. Поскольку DeepSORT разработан с учетом ситуаций, когда люди закрывают друг друга и выглядят очень похоже (например, в основном белая одежда паломников), он способен сохранять стабильные траектории даже в плотных и визуально запутанных сценах.

Насколько хорошо работает система

Авторы тщательно протестировали свою систему. Они сравнивали несколько версий семейства YOLO и разные методы трекинга, в итоге обнаружив, что сочетание YOLOv4 и DeepSORT показывает лучшие результаты на реальных кадрах Хаджа. После настройки моделей и обучения на отобранном наборе данных YOLOv4 правильно обнаруживал людей с точностью более 95% и демонстрировал высокий баланс между пропусками и ложными срабатываниями. DeepSORT отслеживал людей с точностью более 91%, восстанавливая их траектории даже когда они кратковременно скрывались за другими. По сравнению с системами, применяемыми для дорожного трафика, контроля социальной дистанции или других сцен с толпой, ориентированный на Хадж подход соответствовал или превосходил лучшие из известных результатов, работая в одной из самых сложных сред.

Figure 2
Figure 2.

Что это может значить на практике

На практике такая система может работать через существующие камеры наблюдения и непрерывно отслеживать перемещения паломников. Когда число людей на проходе приближается к безопасному пределу или площадь начинает заполняться неравномерно, программное обеспечение может оповещать ответственных лиц об изменении барьеров, перенаправлении потоков или отправке сообщений волонтерам на местах. Помимо безопасности, эти данные помогут лучше размещать медицинские бригады, санитарные узлы и транспортные связи, а также помогут планировщикам пересматривать маршруты для будущих сезонов, опираясь на реальные данные вместо догадок. Авторы также отмечают, что тот же подход может быть полезен на крупных спортивных мероприятиях, концертах или фестивалях.

Более умный и безопасный способ управлять массами

Для неспециалиста основной вывод прост: компьютеры теперь способны наблюдать за огромными толпами тщательнее и последовательнее, чем любая команда людей, превращая необработанное видео в ранние предупреждения и практические рекомендации. Объединив обнаружение людей и их отслеживание в одну устойчивую систему, это исследование демонстрирует возможность мониторинга потоков миллионов паломников в реальном времени, классификации степени заполненности каждой зоны и принятия мер до того, как ситуация станет опасной. При дальнейшем развитии и ответственном использовании такие инструменты могут сделать крупные религиозные мероприятия и другие массовые события безопаснее, более упорядоченными и менее стрессовыми для всех участников.

Цитирование: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7

Ключевые слова: управление толпой, компьютерное зрение, безопасность хаджа, треккинг объектов, глубокое обучение