Clear Sky Science · pl

Prognozowanie rozpraszania się tłumów i przepływu wiernych za pomocą YOLOv4 i DeepSORT

· Powrót do spisu

Dlaczego obserwowanie tłumów z góry ma znaczenie

Gdy miliony ludzi gromadzą się w jednym miejscu, zwykłe potknięcie lub nagły pęd mogą w ciągu sekund przerodzić się w niebezpieczeństwo. Doroczne pielgrzymki Hadż i Umra w Arabii Saudyjskiej przyciągają do czterech milionów uczestników, tworząc jedne z najgęstszych tłumów na świecie. Artykuł bada, jak sztuczna inteligencja może monitorować te rozległe, poruszające się tłumy za pomocą kamer, automatycznie liczyć osoby, śledzić ich ruch i ostrzegać władze zanim powstanie niebezpieczne zatłoczenie.

Wielkie zgromadzenia, duże ryzyko

Tradycyjna kontrola tłumu opiera się na obserwatorach, stałych barierach i starannie zaplanowanych trasach. Jednak ludzkie oko męczy się, a zachowanie tłumu bywa nieprzewidywalne. Podczas Hadżu pielgrzymi przemieszczają się między świętymi miejscami po chodnikach, drogach i otwartych placach, które szybko mogą stać się wąskimi gardłami. Autorzy przekonują, że aby zwiększyć bezpieczeństwo, służby potrzebują narzędzi zdolnych ujrzeć całą sytuację w czasie rzeczywistym: gdzie tłumy są gęste, gdzie rozluźniają się i jak szybko wchodzą lub wychodzą z danego obszaru.

Nauczanie komputerów rozpoznawania ludzi

Aby zbudować takie narzędzie, badacze wykorzystują dwie zaawansowane metody widzenia komputerowego. Pierwsza, nazwana YOLOv4, jest wyszkolona do wykrywania ludzi na obrazach przez rysowanie ramek wokół każdej osoby, nawet w bardzo zatłoczonych scenach. Druga, DeepSORT, bierze te detekcje i śledzi każdą osobę przez kolejne klatki wideo, przypisując jej niewidzialne ID, dzięki czemu można odwzorować jej ścieżkę w czasie. Zespół skompletował dużą kolekcję zdjęć i nagrań z Hadżu 2019, wykonanych w kilku obszarach wokół góry Arafat. Dokładnie oznaczyli dziesiątki tysięcy głów i sylwetek, odfiltrowali rozmyte materiały i urozmaicili dane drobnymi modyfikacjami, aby system pozostał niezawodny przy różnych warunkach oświetlenia, kątach i gęstościach tłumu.

Figure 1
Figura 1.

Od poruszających się punktów do poziomów tłumu

Gdy system potrafi odnaleźć i śledzić osoby, może zamienić te poruszające się punkty w obraz zachowania tłumu. Przez liczenie, ile osób wchodzi i wychodzi z danego obszaru oraz jak ciasno są zgromadzone, system klasyfikuje gęstość tłumu na trzy intuicyjne poziomy: niski, średni i wysoki. Zamiast polegać na przybliżeniach czy spóźnionych raportach, zarządzający mogą zobaczyć, gdzie tłum się rozchodzi równomiernie, a gdzie tworzą się krytyczne wąskie gardła. Ponieważ DeepSORT został zaprojektowany tak, by radzić sobie z zasłanianiem osób nawzajem oraz z dużym podobieństwem wyglądu (jak białe stroje pielgrzymów), potrafi utrzymać stabilne ślady nawet w gęstych, wizualnie złożonych scenach.

Jak dobrze system działa

Autorzy gruntownie przetestowali swoje rozwiązanie. Porównali kilka wersji rodziny YOLO oraz różne metody śledzenia, ostatecznie stwierdzając, że połączenie YOLOv4 z DeepSORT dało najlepsze wyniki na rzeczywistych nagraniach z Hadżu. Po dostrojeniu modeli i trenowaniu na skuratorowanym zbiorze danych, YOLOv4 wykrywał ludzi z ponad 95% poprawnością i zachowywał bardzo dobrą równowagę między pominięciami a fałszywymi alarmami. DeepSORT śledził osoby z ponad 91% dokładnością, odtwarzając ich ścieżki nawet gdy chwilowo były zasłonięte przez innych. W porównaniu z podobnymi systemami stosowanymi w monitoringu ruchu drogowego, nadzorze dystansu społecznego czy innych scenach tłumu, podejście skoncentrowane na Hadżu dorównywało lub przewyższało najlepsze dostępne wyniki, działając w jednym z najbardziej wymagających środowisk.

Figure 2
Figura 2.

Co to może oznaczać w praktyce

W praktyce taki system mógłby działać przy istniejących kamerach monitoringu i nieprzerwanie obserwować ruch pielgrzymów. Gdy liczba osób na przejściu zbliży się do bezpiecznego limitu lub plac zacznie napełniać się nierównomiernie, oprogramowanie mogłoby ostrzec służby o konieczności przestawienia barier, przekierowania przepływów lub wysłania komunikatów do wolontariuszy. Poza bezpieczeństwem te same informacje mogłyby pomóc w rozmieszczeniu służb medycznych, toalet i połączeń transportowych oraz wspierać planistów przy projektowaniu tras na kolejne sezony, opierając się na rzeczywistych danych zamiast przypuszczeń. Autorzy zauważają również, że podobne rozwiązanie mogłoby być użyteczne podczas dużych imprez sportowych, koncertów czy festiwali.

Inteligentniejszy, bezpieczniejszy sposób kierowania tłumami

Dla osoby niezaznajomionej z tematem kluczowy wniosek jest prosty: komputery potrafią dziś obserwować ogromne tłumy dokładniej i konsekwentniej niż zespoły ludzkie, przekształcając surowe nagrania w wczesne ostrzeżenia i praktyczne wskazówki. Łącząc detekcję osób z ich śledzeniem w jednym odpornym systemie, badania pokazują, że możliwe jest monitorowanie przepływu milionów pielgrzymów w czasie rzeczywistym, klasyfikowanie stopnia zatłoczenia każdego obszaru i działanie zanim sytuacje staną się niebezpieczne. Jeśli narzędzia te zostaną dalej rozwinięte i wdrożone odpowiedzialnie, mogą uczynić duże zgromadzenia religijne i inne masowe wydarzenia bezpieczniejszymi, bardziej płynnymi i mniej stresującymi dla wszystkich uczestników.

Cytowanie: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7

Słowa kluczowe: zarządzanie tłumem, widzenie komputerowe, bezpieczeństwo Hadżu, śledzenie obiektów, uczenie głębokie