Clear Sky Science · pt

MmodalFire: um Conjunto de Dados Multimodal Contínuo Com Vídeo e Leituras de Sensores Físicos para Detectar Incêndios Internos

· Voltar ao índice

Por que alarmes de incêndio melhores importam

Em grandes escritórios, centros de dados ou prédios residenciais, poucos minutos podem ser a diferença entre um incidente contido e um incêndio mortal. Detectores tradicionais de fumaça ou calor montados no teto muitas vezes reagem apenas depois que a fumaça sobe ou o ambiente aquece, o que pode levar tempo precioso. Enquanto isso, câmeras de segurança modernas observam os mesmos espaços continuamente, mas podem ser enganadas por névoa, vapor ou reflexos intensos. Este artigo apresenta um novo tipo de recurso: um conjunto de dados cuidadosamente projetado que combina vídeo de câmera e leituras de sensores físicos, para que sistemas de inteligência artificial possam aprender a identificar incêndios internos mais rápido e com mais confiabilidade do que qualquer método isolado.

Uma nova forma de observar incêndios internos

Os autores apresentam o MmodalFire, um conjunto de dados público criado especificamente para pesquisa em detecção de incêndios internos. Em vez de depender apenas de vídeo ou de sensores isolados, o MmodalFire registra ambos ao mesmo tempo. Cada experimento captura vídeo em alta definição juntamente com seis tipos de saídas de sensores, incluindo densidade de fumaça, temperatura e radiação em várias bandas do infravermelho e ultravioleta. Cada sequência curta é rotulada simplesmente como “incêndio” ou “não‑incêndio”, permitindo que modelos de computador aprendam a distinguir eventos perigosos de imitações inofensivas. Ao tornar esse conjunto de dados livremente disponível, a equipe pretende oferecer aos pesquisadores um banco de testes realista e comum para comparar algoritmos de detecção.

Figure 1
Figure 1.

Como os experimentos foram construídos

Para montar o MmodalFire, os pesquisadores estabeleceram salas de teste idênticas em dois laboratórios na China. Cada sala tinha o tamanho aproximado de um pequeno escritório, com paredes fixas, detectores montados no teto e uma câmera em um canto para visão completa. Realizaram queimas controladas de quatro materiais comuns em ambientes internos: madeira, corda de algodão, espuma de poliuretano (como enchimento de móveis) e n‑heptano (um líquido de queima limpa semelhante a alguns combustíveis). Para garantir que o sistema também aprendesse o que não é incêndio, criaram duas condições de interferência: fumaça teatral gerada por gelo seco e névoa de água de um umidificador doméstico. Durante cada ensaio, a câmera e os sensores funcionaram continuamente, registrando quadros de vídeo e leituras numéricas com carimbos de tempo precisos.

Capturando variedade do mundo real

Edifícios reais diferem em iluminação, movimento do ar e na proximidade de um incêndio com cada detector, então a equipe variou esses fatores deliberadamente. Ajustaram o vento de ar parado a brisas suaves, alternaram entre iluminação forte e fraca, mudaram a quantidade de combustível utilizada e deslocaram o fogo para mais perto ou mais longe dos sensores e das paredes. Em algumas execuções, o incêndio produziu fumaça negra densa e aquecimento rápido; em outras, como com n‑heptano, as chamas eram claras com pouca fumaça. Nos casos negativos, névoa de água e vapor de gelo seco pareceram muito semelhantes à fumaça na imagem da câmera, mas praticamente não afetaram os sensores físicos. No total, coletaram 65 sequências de vídeo — mais de 700 minutos de filmagem — com dados de sensores sincronizados, e depois dividiram-nas em muitos clipes sobrepostos de cinco segundos que poderiam ser usados individualmente como exemplos de treinamento.

Figure 2
Figure 2.

Ensinando máquinas a combinar sentidos

Usando o MmodalFire, os autores construíram e testaram vários modelos computacionais. Alguns modelos usaram apenas vídeo, outros apenas leituras de sensores, e os mais avançados fundiram ambos. O ramo de vídeo contou com uma rede leve de deep learning, adaptada para movimento e aparência em clipes curtos. O ramo de sensores tratou os seis fluxos numéricos como uma pequena grade que muda ao longo do tempo e usou técnicas modernas, como transformers, para entender seus padrões. Um módulo de fusão então reuniu essas duas correntes, permitindo que o modelo “decida” quanto peso dar a cada fonte em diferentes condições. Quando avaliado em dados de teste separados, o modelo combinado superou claramente qualquer abordagem de fonte única, especialmente em situações difíceis, como fumaça que ainda não alcançou os sensores de teto ou vapor inofensivo que parecia fumaça na câmera.

Alarmes robustos para espaços complexos

O estudo conclui que dados de vídeo e sensores físicos cuidadosamente sincronizados podem tornar alarmes de incêndio internos mais rápidos e confiáveis. Ao mostrar que um modelo fundido pode continuar operando mesmo quando a câmera é bloqueada ou quando os sensores reagem lentamente, o trabalho aponta para sistemas mais inteligentes para instalações críticas como usinas, salas de servidores e edifícios de alta ocupação. O MmodalFire oferece aos pesquisadores um conjunto de dados realista e compartilhado no qual projetar e comparar tais sistemas, abrindo caminho para alarmes de próxima geração que usam múltiplos “sentidos” para reconhecer perigo real enquanto permanecem silenciosos diante de vapor cotidiano e fumaça cenográfica.

Citação: Jia, Y., Guo, Y., Chen, Y. et al. MmodalFire: A Continuous Multimodal Dataset Comprising Video and Physical Sensing Data for Detecting Indoor Fires. Sci Data 13, 489 (2026). https://doi.org/10.1038/s41597-026-06810-6

Palavras-chave: detecção de incêndio interno, sensores multimodais, vigilância por vídeo, conjunto de dados de segurança contra incêndio, alarmess de deep learning