Clear Sky Science · it

MmodalFire: un dataset multimodale continuo che comprende video e dati di sensori fisici per rilevare incendi indoor

2026-02-19 · Torna all'indice

Perché contano allarmi antincendio migliori

In grandi uffici, data center o condomini, pochi minuti possono fare la differenza tra un piccolo incidente e un incendio mortale. I tradizionali rivelatori di fumo o calore a soffitto spesso reagiscono solo dopo che il fumo è salito o l’ambiente si è riscaldato, il che può richiedere tempo prezioso. Nel frattempo, le moderne telecamere di sicurezza osservano gli stessi spazi in modo continuo ma possono essere ingannate da nebbia, vapore o riflessi intensi. Questo articolo presenta un nuovo tipo di risorsa: un dataset progettato con cura che combina sia video della videocamera sia letture di sensori fisici, così che i sistemi di intelligenza artificiale possano imparare a individuare incendi indoor più rapidamente e in modo più affidabile rispetto a ciascun metodo preso singolarmente.

Un nuovo modo di osservare gli incendi indoor

Gli autori presentano MmodalFire, un dataset pubblico creato specificamente per la ricerca sul rilevamento di incendi indoor. Invece di affidarsi solo al video o a sensori isolati, MmodalFire registra entrambi contemporaneamente. Ogni esperimento cattura video ad alta definizione insieme a sei tipi di output dei sensori, compresa la densità di fumo, la temperatura e la radiazione in diverse bande infrarosse e ultraviolette. Ogni breve sequenza è etichettata semplicemente come “fire” o “non‑fire”, permettendo ai modelli di apprendere a distinguere eventi pericolosi da imitazioni innocue. Rendendo questo dataset liberamente disponibile, il team mira a fornire ai ricercatori un banco di prova comune e realistico per confrontare gli algoritmi di rilevamento incendi.

Come sono stati costruiti gli esperimenti

Per costruire MmodalFire, i ricercatori hanno allestito stanze di prova identiche in due laboratori in Cina. Ogni stanza aveva le dimensioni di un piccolo ufficio, con pareti fisse, rivelatori montati a soffitto e una telecamera in un angolo per una visione completa. Hanno eseguito combustioni controllate di quattro materiali comuni d’interni: legno, corda di cotone, schiuma di poliuretano (come l’imbottitura dei mobili) e n‑eptano (un liquido a combustione pulita simile ad alcuni carburanti). Per assicurarsi che il sistema potesse anche imparare cosa non sia un incendio, hanno creato due condizioni di interferenza: fumo scenico prodotto da ghiaccio secco e nebbia d’acqua generata da un umidificatore domestico. Durante ogni prova, la telecamera e i sensori hanno funzionato in modo continuativo, registrando frame video e letture numeriche con timestamp precisi.

Raccogliere la varietà del mondo reale

Gli edifici reali differiscono per illuminazione, movimento dell’aria e per la distanza a cui un incendio può trovarsi rispetto a ciascun rivelatore, quindi il team ha variato deliberatamente questi fattori. Hanno regolato il vento da aria ferma a brezze leggere, alternato illuminazione intensa e fioca, cambiato la quantità di combustibile utilizzata e spostato il fuoco più vicino o più lontano dai sensori e dalle pareti. In alcune prove il fuoco ha prodotto fumo denso e nero e un riscaldamento rapido; in altre, come con l’n‑eptano, le fiamme erano chiare con poco fumo. Nei casi negativi, la nebbia d’acqua e il vapore da ghiaccio secco avevano un aspetto molto simile al fumo nell’immagine della telecamera, ma disturbavano appena i sensori fisici. Complessivamente hanno raccolto 65 sequenze video—oltre 700 minuti di riprese—con dati dei sensori sincronizzati, poi le hanno suddivise in molti clip sovrapposti di cinque secondi che potevano ciascuno essere usati come singolo esempio di addestramento.

Insegnare alle macchine a combinare i sensi

Utilizzando MmodalFire, gli autori hanno costruito e testato diversi modelli di calcolo. Alcuni modelli usavano solo il video, altri solo le letture dei sensori, e i più avanzati fondevano entrambi. Il ramo video si basava su una rete deep‑learning leggera progettata per catturare movimento e aspetto in clip brevi. Il ramo dei sensori trattava i sei flussi numerici come una piccola griglia che cambia nel tempo e utilizzava tecniche moderne come i transformer per comprenderne i pattern. Un modulo di fusione poi riuniva questi due flussi, permettendo al modello di “decidere” quanto peso assegnare a ciascuna fonte in condizioni diverse. Valutato su dati di test separati, il modello combinato ha chiaramente superato ciascun approccio a sorgente singola, soprattutto in situazioni difficili come fumo che non aveva ancora raggiunto i sensori a soffitto o vapori innocui che nella telecamera sembravano fumo.

Allarmi robusti per spazi complessi

Lo studio conclude che dati video e dati di sensori fisici sincronizzati con cura possono rendere gli allarmi antincendio indoor sia più rapidi sia più affidabili. Dimostrando che un modello fuso può continuare a funzionare anche quando la telecamera è ostruita o quando i sensori reagiscono lentamente, il lavoro indica la strada verso sistemi più intelligenti per strutture critiche come centrali elettriche, sale server e edifici ad alta occupazione. MmodalFire fornisce ai ricercatori un dataset condiviso e realistico su cui progettare e confrontare tali sistemi, aprendo la porta ad allarmi di nuova generazione che usano più “sensi” per riconoscere il pericolo reale rimanendo silenziosi di fronte a vapore quotidiano e fumo scenico.

Citazione: Jia, Y., Guo, Y., Chen, Y. et al. MmodalFire: A Continuous Multimodal Dataset Comprising Video and Physical Sensing Data for Detecting Indoor Fires. Sci Data 13, 489 (2026). https://doi.org/10.1038/s41597-026-06810-6

Parole chiave: rilevamento incendi indoor, sensori multimodali, videosorveglianza, dataset per sicurezza antincendio, allarmi basati su deep learning