Clear Sky Science · de

Vorhersage von Verteilungs- und Flussverhalten in Versammlungen und Menschenmengen mittels YOLOv4 und DeepSORT

2026-03-17 · Zurück zur Übersicht

Warum die Beobachtung von Menschenmengen aus der Vogelperspektive wichtig ist

Wenn Millionen Menschen an einem Ort zusammenkommen, kann ein einfacher Stolperer oder ein plötzlicher Ansturm in Sekunden gefährlich werden. Die jährlichen Haddsch- und Umrah-Pilgerfahrten in Saudi-Arabien ziehen bis zu vier Millionen Gläubige an und schaffen damit einige der dichtesten Menschenansammlungen der Erde. Dieser Beitrag untersucht, wie künstliche Intelligenz solche weitläufigen, sich bewegenden Menschenmengen durch Kameras beobachten kann, automatisch Personen zählt, ihre Bewegungen verfolgt und Behörden warnt, bevor gefährliche Stauungen entstehen.

Große Versammlungen, großes Risiko

Traditionelle Menschenmengensteuerung beruht auf menschlichen Beobachtern, festen Barrieren und sorgfältig geplanten Routen. Doch menschliche Augen ermüden, und Menschenmengen verhalten sich oft unvorhersehbar. Beim Haddsch bewegen sich Pilger zwischen wichtigen heiligen Stätten entlang von Gehwegen, Straßen und offenen Plätzen, die schnell zu Engpässen werden können. Die Autoren argumentieren, dass Beamte, um Menschen sicherer zu halten, Werkzeuge benötigen, die das Gesamtbild in Echtzeit sehen: wo Menschen dicht stehen, wo sie sich lichten und wie schnell sie einen Bereich betreten oder verlassen.

Computern beibringen, Menschen zu sehen

Um ein solches Werkzeug zu entwickeln, nutzen die Forscher zwei fortgeschrittene Methoden der Computer Vision. Die erste, YOLOv4 genannt, wurde darauf trainiert, Personen in Bildern zu erkennen, indem sie um jede Person eine Box zieht, selbst in dicht gedrängten Szenen. Die zweite, DeepSORT genannt, nimmt diese Detektionen und verfolgt jede Person über viele Video-Frames hinweg, weist ihnen eine unsichtbare ID zu, sodass ihre Bahn über die Zeit nachvollziehbar wird. Das Team stellte eine große Sammlung von Bildern und Videos vom Haddsch 2019 zusammen, aufgenommen in mehreren Bereichen um den Berg Arafat. Sie haben zehntausende menschliche Köpfe und Körper sorgfältig beschriftet, unscharfes Material entfernt und die Daten mit kleinen Variationen erweitert, damit das System unter unterschiedlichen Lichtverhältnissen, Blickwinkeln und Menschenmengenstärken zuverlässig bleibt.

Von bewegten Punkten zu Crowd-Leveln

Sobald das System einzelne Personen finden und verfolgen kann, verwandelt es diese bewegten Punkte in ein Bild des Verhaltens der Menge. Indem es zählt, wie viele Personen einen Bereich betreten und verlassen und wie dicht sie beieinanderstehen, klassifiziert das System die Dichtestufen der Menge in drei intuitive Kategorien: niedrig, mittel und hoch. Anstatt sich auf grobe Schätzungen oder verzögerte Meldungen zu verlassen, können Verantwortliche sehen, wo Menschen sich gleichmäßig verteilen und wo kritische Engpässe entstehen. Da DeepSORT darauf ausgelegt ist, mit Verdeckungen und großer visueller Ähnlichkeit (wie bei den überwiegend weißen Kleidungsstücken der Pilger) umzugehen, kann es stabile Bahnen auch in dichten, visuell verwirrenden Szenen aufrechterhalten.

Wie gut das System funktioniert

Die Autoren haben ihr System gründlich getestet. Sie verglichen mehrere Varianten der YOLO-Familie sowie verschiedene Tracking-Methoden und stellten schließlich fest, dass die Kombination aus YOLOv4 und DeepSORT auf realem Haddsch-Material am besten abschnitt. Nach dem Feinabstimmen der Modelle und dem Training auf dem kuratierten Datensatz erkannte YOLOv4 Personen mit über 95 % Genauigkeit und einem sehr guten Gleichgewicht zwischen verpassten Detektionen und Fehlalarmen. DeepSORT verfolgte Individuen mit mehr als 91 % Genauigkeit und stellte ihre Bahnen auch dann wieder her, wenn sie kurzzeitig hinter anderen verdeckt waren. Im Vergleich mit ähnlichen Systemen, die für Verkehr, Überwachung sozialer Distanz oder andere Menschenmengen eingesetzt werden, erreichte dieser auf den Haddsch fokussierte Ansatz gleichwertige oder bessere Ergebnisse und funktionierte in einer der anspruchsvollsten Umgebungen.

Was das vor Ort bedeuten könnte

In der Praxis könnte ein solches System hinter bestehenden Überwachungskameras laufen und kontinuierlich überwachen, wie Pilger sich bewegen. Wenn die Anzahl der Personen in einem Durchgang nahe an dessen sichere Kapazitätsgrenze kommt oder ein Platz sich ungleichmäßig füllt, könnte die Software Beamte alarmieren, damit Barrieren angepasst, Ströme umgeleitet oder Nachrichten an Helfer vor Ort gesendet werden. Über die Sicherheit hinaus könnten dieselben Erkenntnisse helfen, Sanitäts-Teams, Toiletten und Verkehrsanbindungen besser zu platzieren und Planern ermöglichen, Routen für kommende Saison auf Basis realer Daten statt Schätzungen neu zu gestalten. Die Autoren weisen außerdem darauf hin, dass derselbe Ansatz bei großen Sportveranstaltungen, Konzerten oder Festivals nützlich sein könnte.

Eine intelligentere, sicherere Art, die Massen zu lenken

Für Laien ist die wichtigste Erkenntnis einfach: Computer können große Menschenmengen jetzt sorgfältiger und konsistenter überwachen als jedes menschliche Team und rohe Videoaufnahmen in Frühwarnungen und praktische Anweisungen verwandeln. Durch die Kombination von Personenerkennung und -verfolgung zu einem robusten System zeigt diese Forschung, dass es möglich ist, den Fluss von Millionen von Pilgern in Echtzeit zu überwachen, die Dichte in jedem Bereich zu klassifizieren und zu handeln, bevor Situationen gefährlich werden. Wenn diese Werkzeuge weiterentwickelt und verantwortungsvoll eingesetzt werden, könnten sie große religiöse Versammlungen und andere Massenveranstaltungen sicherer, reibungsloser und weniger belastend für alle Beteiligten machen.

Zitation: Aljojo, N., Ardah, H., Alamri, A. et al. Predicting congregational and crowd spread-out flow using YOLOv4 and DeepSORT. Sci Rep 16, 13869 (2026). https://doi.org/10.1038/s41598-026-44719-7

Schlüsselwörter: Massenmanagement, Computer Vision, Sicherheit beim Haddsch, Objektverfolgung, Tiefes Lernen