Clear Sky Science · sv
MmodalFire: En kontinuerlig multimodal datamängd som omfattar video och fysiska sensordata för att upptäcka inomhusbränder
Varför bättre brandlarm spelar roll
I stora kontor, datacenter eller flerfamiljshus kan några minuter vara skillnaden mellan en mindre incident och en dödlig brand. Traditionella takmonterade rök‑ eller värmedetektorer reagerar ofta först efter att rök stigit eller rummet värmts upp, vilket kan ta dyrbar tid. Samtidigt bevakar moderna säkerhetskameror samma utrymmen kontinuerligt men kan luras av dimma, ånga eller starka reflektioner. Denna artikel presenterar en ny typ av resurs: en noggrant utformad datamängd som kombinerar både kameravideo och mätvärden från fysiska sensorer, så att artificiella intelligenssystem kan lära sig att upptäcka inomhusbränder snabbare och mer tillförlitligt än någon metod för sig.
Ett nytt sätt att se på inomhusbränder
Författarna presenterar MmodalFire, en offentlig datamängd skapad särskilt för forskning om upptäckt av inomhusbränder. Istället för att förlita sig på antingen video eller fristående sensorer spelar MmodalFire in båda samtidigt. Varje försök fångar högupplöst video tillsammans med sex typer av sensorutgångar, inklusive röktäthet, temperatur och strålning i flera infraröda och ultravioletta band. Varje kort sekvens märks enkelt som ”brand” eller ”icke‑brand”, vilket gör det möjligt för datoriserade modeller att lära sig skilja farliga händelser från harmlika liknelser. Genom att göra denna datamängd fritt tillgänglig vill teamet ge forskare en gemensam, realistisk testbädd för att jämföra algoritmer för brandupptäckt.

Hur experimenten byggdes
För att bygga MmodalFire satte forskarna upp identiska testrum i två laboratorier i Kina. Varje rum var ungefär i storlek som ett litet kontor, med fasta väggar och takmonterade detektorer samt en kamera i ett hörn för full överblick. De genomförde kontrollerade förbränningar av fyra vanliga inomhusmaterial: trä, bomullstam, polyuretanskum (som möbelstoppning) och n‑heptan (en rent brinnande vätska lik vissa bränslen). För att säkerställa att systemet också kunde lära sig vad som inte är en brand skapade de två störningsförhållanden: scenrök tillverkad av torris och vattendimma från en hushållsluftfuktare. Under varje försök körde kameran och sensorerna kontinuerligt och loggade videoramar och numeriska värden med precisa tidsstämplar.
Att fånga verklig variation
Verkliga byggnader skiljer sig i belysning, luftström och hur nära en brand kan vara varje detektor, så teamet varierade dessa faktorer med avsikt. De justerade vind från stillastående luft till svaga briser, växlade mellan starkt och svagt ljus, ändrade hur mycket bränsle som användes och flyttade elden närmare eller längre från sensorer och väggar. I vissa körningar gav elden tät svart rök och snabb uppvärmning; i andra, som vid n‑heptan, var lågor tydliga med lite rök. För de negativa fallen såg vattendimma och torrisånga mycket lika ut som rök i kamerabilden, men påverkade knappt de fysiska sensorerna. Totalt samlade de in 65 videosekvenser — över 700 minuters material — med synkroniserade sensordata, som sedan kapades till många överlappande femsekundersklipp som vardera kan användas som ett enskilt träningsprov.

Att lära maskiner att kombinera sinnen
Med MmodalFire byggde och testade författarna flera datormodeller. Vissa modeller använde endast video, andra endast sensorvärden, och de mest avancerade förenade båda. Videobanan förlitade sig på ett lättviktigt djupinlärningsnätverk anpassat för rörelse och utseende i korta klipp. Sensorgrenen behandlade de sex numeriska strömmarna som ett litet rutnät som förändras över tid och använde moderna tekniker som transformatorer för att förstå deras mönster. En fusionsmodul förde sedan ihop dessa två strömmar, vilket tillät modellen att ”avgöra” hur mycket vikt som skulle ges till varje källa under olika förhållanden. När den utvärderades på separat testdata överträffade den sammanslagna modellen tydligt båda enkelkälla‑metoderna, särskilt i svåra situationer såsom rök som ännu inte nått taksensorerna eller harmlös ånga som såg ut som rök i kameran.
Robusta larm för komplexa miljöer
Studien slutar i att noggrant synkroniserade video‑ och fysiska sensordata kan göra inomhusbrandlarm både snabbare och mer tillförlitliga. Genom att visa att en fusionerad modell kan fortsätta fungera även när kameran blockeras eller när sensorer reagerar långsamt pekar arbetet mot smartare system för kritiska anläggningar såsom kraftverk, serverrum och lokaler med hög beläggning. MmodalFire ger forskare en delad, realistisk datamängd på vilken sådana system kan utformas och jämföras, vilket öppnar dörren för nästa generations larm som använder flera ”sinnen” för att känna igen verklig fara samtidigt som de är tysta för vardaglig ånga och scenrök.
Citering: Jia, Y., Guo, Y., Chen, Y. et al. MmodalFire: A Continuous Multimodal Dataset Comprising Video and Physical Sensing Data for Detecting Indoor Fires. Sci Data 13, 489 (2026). https://doi.org/10.1038/s41597-026-06810-6
Nyckelord: upptäckt av inomhusbränder, multimodala sensorer, videoövervakning, datamängd för brandsäkerhet, djupinlärningslarm