Clear Sky Science · pt

Predizendo o fluxo de disseminação de congregações e multidões usando YOLOv4 e DeepSORT

· Voltar ao índice

Por que observar multidões de cima é importante

Quando milhões de pessoas se reúnem em um mesmo lugar, um simples tropeço ou uma corrida súbita pode se tornar perigoso em segundos. As peregrinações anuais do Hajj e da Umrah, na Arábia Saudita, atraem até quatro milhões de fiéis, criando algumas das multidões mais densas do planeta. Este artigo explora como a inteligência artificial pode monitorar essas grandes massas em movimento por meio de câmeras, contando automaticamente as pessoas, acompanhando seus deslocamentos e alertando as autoridades antes que ocorram congestionamentos perigosos.

Grandes aglomerações, grandes riscos

O controle tradicional de multidões depende de observadores humanos, barreiras fixas e rotas cuidadosamente planejadas. Mas os olhos humanos se cansam, e as multidões podem se comportar de maneiras inesperadas. Durante o Hajj, os fiéis se deslocam entre locais sagrados por passarelas, estradas e praças abertas que podem rapidamente se tornar gargalos. Os autores argumentam que, para manter as pessoas mais seguras, as autoridades precisam de ferramentas que vejam o quadro completo em tempo real: onde as pessoas estão densas, onde estão se espalhando e com que rapidez entram ou saem de um espaço.

Ensinando computadores a ver pessoas

Para construir essa ferramenta, os pesquisadores empregam dois métodos avançados de visão computacional. O primeiro, chamado YOLOv4, é treinado para identificar pessoas nas imagens desenhando caixas ao redor de cada indivíduo, mesmo em cenas muito apertadas. O segundo, chamado DeepSORT, recebe essas detecções e acompanha cada pessoa por vários quadros de vídeo, atribuindo a cada uma uma ID invisível para que seu trajeto possa ser rastreado ao longo do tempo. A equipe reuniu uma grande coleção de imagens e vídeos do Hajj de 2019, feitos em várias áreas ao redor do Monte Arafat. Eles etiquetaram cuidadosamente dezenas de milhares de cabeças e corpos humanos, eliminaram material borrado e ampliaram o conjunto de dados com pequenas variações para que o sistema se mantivesse confiável sob diferentes condições de iluminação, ângulos e densidades de público.

Figure 1
Figura 1.

De pontos em movimento a níveis de multidão

Uma vez que o sistema consegue localizar e acompanhar indivíduos, ele pode transformar esses pontos em movimento numa imagem do comportamento da multidão. Ao contar quantas pessoas entram e saem de uma área específica e o quão apertadas estão, o sistema classifica a densidade da multidão em três níveis intuitivos: baixo, médio e alto. Em vez de depender de estimativas aproximadas ou relatórios atrasados, os gestores podem ver onde as pessoas estão se espalhando de forma suave e onde pontos críticos de congestionamento estão se formando. Como o DeepSORT foi projetado para lidar com pessoas que se bloqueiam mutuamente da visão e que se parecem muito (como nas vestes predominantemente brancas dos peregrinos), ele consegue manter rastreamentos estáveis mesmo em cenas densas e visualmente confusas.

Desempenho do sistema

Os autores testaram a configuração exaustivamente. Compararam várias versões da família YOLO, bem como diferentes métodos de rastreamento, encontrando por fim que a combinação YOLOv4 com DeepSORT teve o melhor desempenho em imagens reais do Hajj. Após ajustar os modelos e treiná-los no conjunto de dados curado, o YOLOv4 detectou pessoas corretamente com mais de 95% de precisão e um balanço muito favorável entre detecções perdidas e falsos alarmes. O DeepSORT rastreou indivíduos com mais de 91% de acurácia, recuperando seus trajetos mesmo quando eles ficavam brevemente ocultos atrás de outras pessoas. Em comparação com sistemas similares usados para tráfego, monitoramento de distanciamento social ou outras cenas de multidão, essa abordagem focada no Hajj igualou ou superou os melhores resultados relatados, funcionando em um dos ambientes mais desafiadores.

Figure 2
Figura 2.

O que isso pode significar na prática

Na prática, um sistema assim poderia operar por trás de câmeras de vigilância já existentes e monitorar continuamente como os peregrinos se movimentam. Quando o número de pessoas em uma passagem se aproximar do limite seguro, ou quando uma praça começar a preencher-se de maneira desigual, o software poderia alertar as autoridades para ajustar barreiras, redirecionar fluxos ou enviar mensagens a voluntários no terreno. Além da segurança, os mesmos insights poderiam melhorar a localização de equipes médicas, banheiros e conexões de transporte, e ajudar planejadores a redesenhar rotas para temporadas futuras com base em dados reais em vez de suposições. Os autores também observam que a mesma abordagem poderia ser útil em grandes eventos esportivos, shows ou festivais.

Uma maneira mais inteligente e segura de guiar as massas

Para o público em geral, a conclusão principal é simples: os computadores agora podem observar grandes multidões de forma mais cuidadosa e consistente do que qualquer equipe humana, convertendo vídeos brutos em alertas antecipados e orientações práticas. Ao combinar detecção e rastreamento de pessoas em um sistema robusto, esta pesquisa demonstra que é possível monitorar o fluxo de milhões de peregrinos em tempo real, classificar o nível de lotação de cada área e agir antes que as situações se tornem perigosas. Se desenvolvidas e implantadas de forma responsável, tais ferramentas podem tornar grandes encontros religiosos e outros eventos de massa mais seguros, mais fluidos e menos estressantes para todos os envolvidos.

Citação: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7

Palavras-chave: gestão de multidões, visão computacional, segurança no Hajj, rastreamento de objetos, aprendizado profundo