Clear Sky Science · de

MmodalFire: Ein kontinuierliches multimodales Datenset mit Video- und physikalischen Sensordaten zur Erkennung von Bränden in Innenräumen

2026-02-19 · Zurück zur Übersicht

Warum bessere Brandmelder wichtig sind

In großen Büros, Rechenzentren oder Wohnhäusern können wenige Minuten den Unterschied zwischen einem kleinen Zwischenfall und einem tödlichen Brand ausmachen. Herkömmliche an der Decke montierte Rauch- oder Wärmemelder reagieren oft erst, nachdem Rauch aufgestiegen ist oder der Raum sich erwärmt hat — das kann wertvolle Zeit kosten. Moderne Überwachungskameras beobachten dieselben Räume dagegen kontinuierlich, lassen sich jedoch durch Nebel, Dampf oder starke Reflektionen täuschen. Dieser Artikel stellt eine neue Ressource vor: ein sorgfältig gestaltetes Datenset, das Kameravideo und physikalische Sensorwerte kombiniert, damit KI-Systeme lernen können, Brände in Innenräumen schneller und zuverlässiger zu erkennen als mit nur einer Methode allein.

Ein neuer Blick auf Brände in Innenräumen

Die Autorinnen und Autoren präsentieren MmodalFire, ein öffentliches Datenset, das speziell für die Forschung zur Branddetektion in Innenräumen erstellt wurde. Anstatt sich auf Videoaufnahmen oder eigenständige Sensoren zu verlassen, zeichnet MmodalFire beides gleichzeitig auf. Jeder Versuch erfasst hochauflösendes Video zusammen mit sechs Sensortypen, darunter Rauchausdünnung, Temperatur sowie Strahlung in mehreren Infrarot- und Ultraviolettbändern. Jede kurze Sequenz ist einfach als „Brand“ oder „Kein Brand“ etikettiert, sodass Computermodelle lernen können, gefährliche Ereignisse von harmlosen Nachahmungen zu unterscheiden. Durch die frei verfügbare Bereitstellung dieses Datensets will das Team Forschenden eine gemeinsame, realistische Testumgebung für den Vergleich von Branddetektionsalgorithmen geben.

Wie die Versuche aufgebaut wurden

Um MmodalFire zu erstellen, richteten die Forschenden in zwei Labors in China identische Prüfstände ein. Jeder Raum war etwa so groß wie ein kleines Büro, mit festen Wänden, deckenmontierten Meldern und einer Kamera in einer Ecke für die Vollansicht. Sie führten kontrollierte Brände mit vier gebräuchlichen Innenraummaterialien durch: Holz, Baumwollseil, Polyurethanschaum (wie Polsterfüllung) und n-Heptan (eine sauber brennende Flüssigkeit, ähnlich manchen Brennstoffen). Damit das System auch lernen kann, was kein Brand ist, erzeugten sie zwei Störbedingungen: Bühnenrauch aus Trockeneis und Wassernebel aus einem haushaltsüblichen Luftbefeuchter. Während jeder Versuchsdurchführung liefen Kamera und Sensoren kontinuierlich und protokollierten Videoframes und numerische Messwerte mit präzisen Zeitstempeln.

Erfassen realer Vielfalt

Reale Gebäude unterscheiden sich in Beleuchtung, Luftbewegung und darin, wie nahe ein Brand an den einzelnen Detektoren liegt; deshalb variierten die Forschenden diese Faktoren gezielt. Sie veränderten die Luftbewegung von stiller Luft bis zu leichten Brisen, schalteten zwischen heller und gedimmter Beleuchtung, variierten die eingesetzte Brennstoffmenge und positionierten das Feuer näher an oder weiter weg von Sensoren und Wänden. In einigen Durchläufen erzeugte das Feuer dichten schwarzen Rauch und schnelle Erwärmung; in anderen, wie bei n-Heptan, waren die Flammen klar bei wenig Rauch. Bei den Negativbeispielen sahen Wassernebel und Trockeneisdampf in der Kamerabild sehr ähnlich wie Rauch aus, beeinflussten die physikalischen Sensoren jedoch kaum. Insgesamt sammelten sie 65 Videosequenzen — über 700 Minuten Filmmaterial — mit synchronisierten Sensordaten und schnitten diese dann in viele überlappende fünfsekündige Clips, die jeweils als einzelnes Trainingsbeispiel verwendet werden können.

Maschinen das Kombinieren von Sinnen beibringen

Mithilfe von MmodalFire bauten und testeten die Autorinnen und Autoren mehrere Computermodelle. Einige Modelle nutzten nur Video, andere nur Sensordaten, und die fortschrittlichsten verschmolzen beides. Der Videozweig stützte sich auf ein leichtgewichtiges Deep‑Learning‑Netzwerk, das für Bewegung und Erscheinungsbild in kurzen Clips zugeschnitten ist. Der Sensorzweig behandelte die sechs numerischen Datenströme als ein kleines Gitter, das sich über die Zeit verändert, und verwendete moderne Techniken wie Transformer, um deren Muster zu erfassen. Ein Fusionsmodul brachte diese beiden Ströme zusammen und ermöglichte dem Modell, unter verschiedenen Bedingungen „zu entscheiden“, welchem Messwert wie viel Gewicht beigemessen werden sollte. Bei der Auswertung auf separaten Testdaten übertraf das kombinierte Modell eindeutig jede Einzelquelle, besonders in kniffligen Situationen wie Rauch, der die Deckenmelder noch nicht erreicht hatte, oder harmloses Dampf, das in der Kamera wie Rauch wirkte.

Robuste Alarme für komplexe Räume

Die Studie kommt zu dem Schluss, dass sorgfältig synchronisiertes Video und physikalische Sensordaten Brandmelder in Innenräumen sowohl schneller als auch vertrauenswürdiger machen können. Indem gezeigt wird, dass ein verschmolzenes Modell auch dann weiterarbeitet, wenn die Kamera blockiert ist oder Sensoren langsam reagieren, weist die Arbeit auf intelligentere Systeme für kritische Anlagen wie Kraftwerke, Serverräume und stark genutzte Gebäude hin. MmodalFire bietet Forschenden ein gemeinsames, realistisches Datenset, auf dem solche Systeme entworfen und verglichen werden können, und ebnet den Weg für die nächste Generation von Alarmen, die mehrere „Sinne“ nutzen, um echte Gefahren zu erkennen und gleichzeitig bei alltäglichem Dampf und Bühnennebel stumm zu bleiben.

Zitation: Jia, Y., Guo, Y., Chen, Y. et al. MmodalFire: A Continuous Multimodal Dataset Comprising Video and Physical Sensing Data for Detecting Indoor Fires. Sci Data 13, 489 (2026). https://doi.org/10.1038/s41597-026-06810-6

Schlüsselwörter: Erkennung von Bränden in Innenräumen, multimodale Sensoren, Videoüberwachung, Datensatz zur Brandsicherheit, Tieflernende Alarme