Clear Sky Science · sv

Förutsägelse av församlingars och folkspridningsflöden med YOLOv4 och DeepSORT

· Tillbaka till index

Varför det spelar roll att övervaka folkmassor uppifrån

När miljontals människor samlas på samma plats kan ett enkelt snubbel eller en plötslig rusning bli farligt på sekunder. De årliga pilgrimsfärderna Hajj och Umrah i Saudiarabien lockar upp till fyra miljoner deltagare och skapar några av de tätaste folkmassorna på jorden. Denna artikel utforskar hur artificiell intelligens kan övervaka dessa stora rörliga folkmassor via kameror, automatiskt räkna människor, följa deras rörelser och varna myndigheter innan farlig trängsel uppstår.

Stora sammankomster, stora risker

Traditionell folkkontroll bygger på mänskliga observatörer, fasta avspärrningar och noggrant planerade rutter. Men människans öga blir trött, och folkmassor beter sig ofta oförutsägbart. Under Hajj rör sig pilgrimer mellan viktiga heliga platser längs gångvägar, vägar och öppna torg som snabbt kan bli flaskhalsar. Författarna menar att för att öka säkerheten behöver myndigheter verktyg som kan se hela bilden i realtid: var människor är täta, var de glesnar och hur snabbt de kommer in i eller lämnar ett område.

Att lära datorer att se människor

För att bygga ett sådant verktyg använder forskarna två avancerade metoder inom datorseende. Den första, kallad YOLOv4, tränas för att upptäcka människor i bilder genom att rita rutor runt varje person, även i tätt packade scener. Den andra, kallad DeepSORT, tar dessa detektioner och följer varje person över många videoramar och ger varje person ett osynligt ID så att deras bana kan spåras över tid. Teamet samlade en stor mängd bilder och video från Hajj 2019, tagna i flera områden runt berget Arafat. De märkte noggrant tiotusentals mänskliga huvuden och kroppar, rensade bort suddigt material och förstärkte datan med små variationer så att systemet skulle förbli tillförlitligt under olika ljusförhållanden, vinklar och folktätheter.

Figure 1
Figure 1.

Från rörliga prickar till folknivåer

När systemet kan hitta och följa individer kan det förvandla dessa rörliga prickar till en bild av hur folkmassan beter sig. Genom att räkna hur många som går in och ut ur ett visst område och hur tätt de är packade klassificerar systemet folktäthet i tre intuitiva nivåer: låg, medel och hög. Istället för att förlita sig på grova uppskattningar eller fördröjda rapporter kan ansvariga se var människor sprider ut sig smidigt och var kritiska flaskhalsar bildas. Eftersom DeepSORT är utformat för att hantera att personer blockerar varandra från sikte och ser mycket lika ut (som pilgrimer i övervägande vitt), kan det upprätthålla stabila spår även i täta, visuellt förvirrande scener.

Hur väl systemet presterar

Författarna testade sin uppsättning grundligt. De jämförde flera versioner av YOLO-familjen samt olika spårningsmetoder och fann slutligen att YOLOv4 i kombination med DeepSORT presterade bäst på verkligt Hajj-material. Efter att ha finjusterat modellerna och tränat dem på den kurerade datamängden detekterade YOLOv4 korrekt människor med över 95 % noggrannhet och en mycket god balans mellan missade detektioner och falsklarm. DeepSORT spårade individer med mer än 91 % noggrannhet och återhämtade deras banor även när de kortvarigt döljdes bakom andra. Jämfört med liknande system som används för trafikövervakning, social distanseringskontroll eller andra folkscener motsvarade eller överträffade denna Hajj-inriktade metod de bästa rapporterade resultaten samtidigt som den fungerade i en av de mest utmanande miljöerna.

Figure 2
Figure 2.

Vad detta kan innebära i praktiken

I praktiken skulle ett sådant system kunna kopplas till befintliga övervakningskameror och kontinuerligt följa hur pilgrimer rör sig. När antalet personer i en gångväg närmar sig dess säkra gräns, eller när ett torg börjar fyllas ojämnt, kan programvaran varna tjänstemän så att de kan justera avspärrningar, omdirigera flöden eller skicka meddelanden till volontärer på plats. Förutom säkerhet kan samma insikter förbättra placeringen av medicinska team, toaletter och transportlänkar, och hjälpa planerare att omgestalta rutter för framtida säsonger baserat på verkliga data snarare än gissningar. Författarna påpekar också att samma metod kan vara användbar vid stora sportevenemang, konserter eller festivaler.

En smartare, säkrare metod för att leda massorna

För en lekman är huvudbudskapet enkelt: datorer kan nu övervaka stora folkmassor mer noggrant och konsekvent än något mänskligt team, och förvandla råvideo till tidiga varningar och praktisk vägledning. Genom att kombinera persondetektion och spårning i ett robust system visar denna forskning att det är möjligt att övervaka rörelsen hos miljontals pilgrimer i realtid, klassificera hur trångt det är i varje område och agera innan situationer blir farliga. Om verktygen vidareutvecklas och används ansvarsfullt kan de göra stora religiösa sammankomster och andra massarrangemang säkrare, smidigare och mindre stressiga för alla inblandade.

Citering: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7

Nyckelord: folkhantering, datorseende, Hajj-säkerhet, objektspårning, djupinlärning