Clear Sky Science · fr
Prédire l’écoulement et la dispersion des foules à l’aide de YOLOv4 et DeepSORT
Pourquoi observer les foules depuis les airs importe
Lorsque des millions de personnes se rassemblent en un même lieu, une simple chute ou une bousculade soudaine peut devenir dangereuse en quelques secondes. Les pèlerinages annuels du Hajj et de l’Omra en Arabie saoudite attirent jusqu’à quatre millions de fidèles, formant certaines des foules les plus denses au monde. Cet article explore comment l’intelligence artificielle peut surveiller ces vastes foules en mouvement via des caméras, compter automatiquement les personnes, suivre leurs déplacements et alerter les autorités avant que des congestions dangereuses ne se forment.
Grands rassemblements, grands risques
Le contrôle traditionnel des foules repose sur des observateurs humains, des barrières fixes et des itinéraires soigneusement planifiés. Mais les yeux humains se fatiguent, et les foules se comportent de manière imprévisible. Pendant le Hajj, les pèlerins se déplacent entre des sites sacrés clés le long de passerelles, routes et places ouvertes qui peuvent rapidement devenir des goulots d’étranglement. Les auteurs soutiennent que, pour protéger davantage de personnes, les responsables ont besoin d’outils capables de voir l’ensemble de la situation en temps réel : où la densité est forte, où elle diminue et à quelle vitesse les gens entrent ou quittent un espace.
Apprendre aux ordinateurs à voir les personnes
Pour construire un tel outil, les chercheurs utilisent deux méthodes avancées de vision par ordinateur. La première, appelée YOLOv4, est entraînée à repérer les personnes dans les images en dessinant des boîtes autour de chaque individu, même dans des scènes très compactes. La seconde, DeepSORT, récupère ces détections et suit chaque personne sur de nombreuses images vidéo, lui attribuant un identifiant invisible afin que sa trajectoire puisse être tracée dans le temps. L’équipe a rassemblé une vaste collection d’images et de vidéos du Hajj 2019, prises dans plusieurs zones autour du mont Arafat. Ils ont annoté avec soin des dizaines de milliers de têtes et de corps, éliminé le matériel flou et enrichi les données par de petites variations pour que le système reste fiable sous différents éclairages, angles et densités de foule.

Des points en mouvement aux niveaux de foule
Une fois le système capable de détecter et de suivre les individus, il peut transformer ces points en mouvement en une image du comportement de la foule. En comptant combien de personnes entrent et sortent d’une zone donnée et à quel point elles sont serrées, le système classe la densité de la foule en trois niveaux intuitifs : faible, moyen et élevé. Plutôt que de se fier à des estimations approximatives ou à des rapports tardifs, les gestionnaires peuvent voir où les gens se dispersent de façon fluide et où des points de blocage critiques se forment. Parce que DeepSORT est conçu pour gérer l’occlusion (lorsque des personnes se cachent les unes les autres) et la forte similarité visuelle (comme les vêtements majoritairement blancs des pèlerins), il peut maintenir des trajectoires stables même dans des scènes denses et visuellement confuses.
Quelle est la performance du système
Les auteurs ont testé leur dispositif de manière approfondie. Ils ont comparé plusieurs versions de la famille YOLO ainsi que différentes méthodes de suivi, constatant finalement que YOLOv4 associé à DeepSORT offrait les meilleures performances sur des séquences réelles du Hajj. Après réglage des modèles et entraînement sur le jeu de données soigné, YOLOv4 détectait correctement les personnes avec plus de 95 % de précision et un très bon équilibre entre détections manquées et faux positifs. DeepSORT suivait les individus avec plus de 91 % d’exactitude, retrouvant leurs trajets même lorsqu’ils étaient brièvement masqués par d’autres. Comparée à des systèmes similaires utilisés pour la circulation, le suivi de distanciation sociale ou d’autres scènes de foule, cette approche axée sur le Hajj égalait ou dépassait les meilleurs résultats publiés tout en opérant dans l’un des environnements les plus exigeants.

Ce que cela pourrait changer sur le terrain
En pratique, un tel système pourrait s’appuyer sur les caméras de surveillance existantes et surveiller en continu les déplacements des pèlerins. Lorsque le nombre de personnes dans une passerelle approche de sa limite de sécurité, ou lorsqu’une place commence à se remplir de façon inégale, le logiciel pourrait alerter les responsables pour qu’ils ajustent les barrières, redirigent les flux ou transmettent des messages aux volontaires sur le terrain. Au-delà de la sécurité, les mêmes informations pourraient améliorer le déploiement des équipes médicales, des sanitaires et des liaisons de transport, et aider les planificateurs à repenser les itinéraires pour les saisons futures sur la base de données réelles plutôt que d’estimations. Les auteurs notent également que l’approche pourrait être utile lors de grands événements sportifs, de concerts ou de festivals.
Une manière plus intelligente et plus sûre de guider les masses
Pour le grand public, la conclusion principale est simple : les ordinateurs peuvent désormais surveiller d’énormes foules plus attentivement et de façon plus constante que n’importe quelle équipe humaine, transformant la vidéo brute en alertes précoces et en conseils pratiques. En combinant détection et suivi des personnes dans un système robuste, cette recherche montre qu’il est possible de monitorer en temps réel le flux de millions de pèlerins, de classifier l’occupation de chaque zone et d’agir avant que des situations ne deviennent dangereuses. Si ces outils sont développés davantage et déployés de manière responsable, ils pourraient rendre les grands rassemblements religieux et autres événements de masse plus sûrs, plus fluides et moins stressants pour tous les participants.
Citation: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7
Mots-clés: gestion des foules, vision par ordinateur, sûreté du Hajj, suivi d’objets, apprentissage profond