Clear Sky Science · es

Predicción del flujo de dispersión de congregaciones y multitudes usando YOLOv4 y DeepSORT

· Volver al índice

Por qué importa vigilar las multitudes desde arriba

Cuando millones de personas se reúnen en un mismo lugar, un tropiezo o una estampida súbita puede volverse peligroso en segundos. Las peregrinaciones anuales del Hajj y la Umrah en Arabia Saudí atraen hasta cuatro millones de fieles, generando algunas de las aglomeraciones más densas del planeta. Este artículo explora cómo la inteligencia artificial puede vigilar estas enormes multitudes en movimiento mediante cámaras, contar personas automáticamente, seguir sus desplazamientos y avisar a las autoridades antes de que se produzcan congestiones peligrosas.

Grandes concentraciones, grandes riesgos

El control tradicional de multitudes se basa en observadores humanos, barreras fijas y rutas cuidadosamente planificadas. Pero la vista humana se cansa y las multitudes se comportan de forma imprevisible. Durante el Hajj, los peregrinos se desplazan entre sitios sagrados clave por pasillos, carreteras y plazas abiertas que pueden convertirse rápidamente en cuellos de botella. Los autores sostienen que, para mantener a la gente más segura, las autoridades necesitan herramientas capaces de ver el panorama completo en tiempo real: dónde la gente está densa, dónde se está dispersando y con qué rapidez entra o sale de un espacio.

Enseñar a los ordenadores a ver personas

Para construir una herramienta así, los investigadores usan dos métodos avanzados de visión por computador. El primero, llamado YOLOv4, se entrena para detectar personas en imágenes dibujando cuadros alrededor de cada individuo, incluso en escenas muy concurridas. El segundo, llamado DeepSORT, toma esas detecciones y sigue a cada persona a lo largo de muchos fotogramas de vídeo, asignando a cada una una ID invisible para poder trazar su trayectoria en el tiempo. El equipo reunió una gran colección de imágenes y vídeos del Hajj de 2019, tomados en varias zonas alrededor del monte Arafat. Etiquetaron cuidadosamente decenas de miles de cabezas y cuerpos, eliminaron material borroso y aumentaron los datos con pequeñas variaciones para que el sistema se mantuviera fiable ante distintas condiciones de iluminación, ángulos y densidades de gente.

Figure 1
Figure 1.

De puntos en movimiento a niveles de multitud

Una vez que el sistema puede localizar y seguir individuos, puede convertir esos puntos en movimiento en una imagen de cómo se comporta la multitud. Contando cuántas personas entran y salen de un área determinada y qué tan apretadas están, el sistema clasifica la densidad en tres niveles intuitivos: baja, media y alta. En lugar de depender de estimaciones aproximadas o informes tardíos, los gestores pueden ver dónde la gente se está dispersando con fluidez y dónde se están formando puntos críticos. Como DeepSORT está diseñado para manejar situaciones en las que las personas se tapan entre sí y se parecen mucho (por ejemplo, por la vestimenta mayoritariamente blanca de los peregrinos), puede mantener trayectorias estables incluso en escenas densas y visualmente confusas.

Qué tan bien funciona el sistema

Los autores probaron su configuración a fondo. Compararon varias versiones de la familia YOLO y diferentes métodos de seguimiento, encontrando finalmente que YOLOv4 combinado con DeepSORT ofrecía el mejor rendimiento en metraje real del Hajj. Tras ajustar los modelos y entrenarlos con el conjunto de datos curado, YOLOv4 detectó correctamente a las personas con más del 95 % de precisión y un equilibrio muy alto entre detecciones fallidas y falsas alarmas. DeepSORT rastreó individuos con más del 91 % de precisión, recuperando sus trayectorias incluso cuando permanecían ocultos brevemente detrás de otros. En comparación con sistemas similares utilizados para tráfico, monitorización de distanciamiento social u otras escenas multitudinarias, este enfoque centrado en el Hajj igualó o superó los mejores resultados reportados, funcionando en uno de los entornos más desafiantes.

Figure 2
Figure 2.

Qué podría significar esto sobre el terreno

En la práctica, un sistema así podría conectarse a las cámaras de vigilancia existentes y monitorizar continuamente cómo se mueven los peregrinos. Cuando el número de personas en un pasillo se acerque a su límite seguro, o cuando una plaza empiece a llenarse de forma desigual, el software podría alertar a los responsables para que ajusten barreras, redirijan flujos o envíen mensajes a los voluntarios sobre el terreno. Más allá de la seguridad, las mismas observaciones podrían mejorar la ubicación de equipos médicos, aseos y enlaces de transporte, y ayudar a los planificadores a rediseñar rutas para temporadas futuras basándose en datos reales en lugar de conjeturas. Los autores también señalan que el mismo enfoque podría ser útil en grandes eventos deportivos, conciertos o festivales.

Una forma más inteligente y segura de guiar a las masas

Para un lector no especializado, la idea principal es sencilla: los ordenadores ahora pueden vigilar enormes multitudes con más cuidado y consistencia que cualquier equipo humano, convirtiendo vídeo crudo en alertas tempranas y guías prácticas. Al combinar detección de personas y seguimiento en un sistema robusto, esta investigación demuestra que es posible monitorizar en tiempo real el flujo de millones de peregrinos, clasificar cuán concurrida está cada área y actuar antes de que las situaciones se vuelvan peligrosas. Si se desarrolla más y se despliega de manera responsable, estas herramientas podrían hacer que grandes concentraciones religiosas y otros eventos multitudinarios sean más seguros, fluidos y menos estresantes para todos los implicados.

Cita: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7

Palabras clave: gestión de multitudes, visión por computador, seguridad del Hajj, seguimiento de objetos, aprendizaje profundo