Clear Sky Science · pt
Um conjunto de dados coletado em sistemas de controle industrial do mundo real para detecção de ataques na rede
Por que ataques ocultos em redes de fábricas importam para você
Energia elétrica, água potável e bens manufaturados dependem de computadores invisíveis que controlam silenciosamente bombas, turbinas e válvulas. À medida que esses sistemas de controle industrial se conectam a redes maiores para se tornarem "inteligentes" e eficientes, também herdam os mesmos riscos cibernéticos de PCs de escritório e roteadores domésticos. Este artigo apresenta o ICS-NAD, uma coleção ampla e realista de dados de rede de locais industriais reais projetada para ajudar pesquisadores a identificar e impedir ciberataques antes que afetem a vida cotidiana.

Fábricas modernas não estão mais isoladas
Os sistemas de controle industrial costumavam ser fisicamente isolados, com pouca ou nenhuma ligação à internet. No impulso em direção à Indústria 4.0, as empresas agora conectam esses sistemas para monitorar equipamentos remotamente, analisar desempenho e aplicar inteligência artificial. O lado negativo é que atacantes também podem acessar esses caminhos digitais. No mundo todo, incidentes graves já atingiram energia, água e outros serviços críticos, mostrando que o risco é alto. Detectar intrusões cedo requer bons dados de treinamento para ferramentas de segurança, mas os poucos conjuntos de dados existentes costumam ser pequenos, artificiais ou carecer dos tipos certos de ataques e rótulos.
Construindo um retrato mais realista das redes industriais
Os autores enfrentam essas lacunas criando o ICS-NAD, um conjunto de referência gravado em um grande ambiente de testes que espelha a indústria real. O local inclui dez marcas de controladores industriais e dez configurações de processo diferentes; para o conjunto de dados eles focam em três marcas bem conhecidas usadas em uma simulação de usina térmica e outra de estação de tratamento de esgoto. Cada marca utiliza um protocolo industrial diferente e amplamente empregado que transmite mensagens sem criptografia, permitindo aos pesquisadores observar detalhes granulares de como os dispositivos se comunicam. O tráfego de rede é capturado diretamente nos switches enquanto interfaces homem–máquina enviam comandos a controladores lógicos programáveis, que por sua vez acionam bombas, aquecedores e outros equipamentos.
Capturando várias maneiras de comprometer um sistema
Para refletir a variedade de ameaças reais, o ICS-NAD inclui 20 tipos de ataque comuns agrupados em quatro famílias. Ataques de reconhecimento vasculham silenciosamente em busca de dispositivos ativos e portas abertas. Ataques de negação de serviço e de negação de serviço distribuída sobrecarregam a rede com pacotes, visando saturar dispositivos para que comandos legítimos sejam atrasados ou descartados. Ataques de injeção de dados falsos forjam mensagens e respostas para enganar controladores ou operadores, enquanto ataques man-in-the-middle se posicionam entre dispositivos, alterando o tráfego em trânsito. Para cada cenário, os pesquisadores registram não apenas os pacotes brutos, mas também quando cada ataque começa e termina, e aplicam um método de rotulagem em duas etapas que combina esses registros temporais com regras específicas do ataque. Isso produz rótulos claros indicando se cada fluxo observado é inofensivo ou pertence a um ataque específico.

Observando padrões de tráfego antes e durante um ataque
Além de simplesmente registrar pacotes, a equipe extrai 60 características descritivas do tráfego, como quantos pacotes circulam em cada direção, qual o tamanho deles e com que rapidez chegam. Essas características cobrem tanto tendências grosseiras ao longo do tempo quanto detalhes finos dentro de pacotes individuais. Ao examinar o tráfego de um dos sistemas de controle, eles mostram como um ataque intensivo de inundação altera o ritmo da comunicação: rajadas de pacotes ficam mais agudas, picos mais altos e intervalos ociosos mais curtos, tudo capturado por medidas estatísticas. Essa visão mais rica ajuda algoritmos a distinguir flutuações naturais na atividade industrial de picos suspeitos causados por um invasor.
Testando o conjunto de dados com máquinas de aprendizado
Para demonstrar que o ICS-NAD é prático, os autores o utilizam para treinar e avaliar dez métodos diferentes de aprendizado de máquina e aprendizado profundo, variando desde árvores de decisão clássicas e esquemas de vizinho mais próximo até árvores reforçadas modernas e redes neurais. Após limpeza e escalonamento básicos, eles selecionam automaticamente um pequeno conjunto das características mais informativas, em grande parte relacionadas ao tamanho e ao conteúdo dos fluxos de tráfego. Mesmo com apenas quatro características por modelo, a maioria dos métodos alcança pontuações altas na identificação de ataques em todas as quatro famílias, frequentemente acima de 90% para acurácia, recall, precisão e F1-score. Isso sugere que o ICS-NAD contém variedade e realismo suficientes para pesquisadores desenvolverem e compararem ferramentas avançadas de detecção.
O que isso significa para uma infraestrutura mais segura
Em termos simples, o ICS-NAD é como um gravador de voo detalhado para redes de fábrica: captura como sistemas industriais reais se comportam em condições normais e sob muitos tipos diferentes de ataque cibernético. Por ser grande, diverso e de acesso aberto, oferece a pesquisadores de segurança, engenheiros e estudantes um campo de testes compartilhado para desenvolver alarmes melhores para infraestrutura crítica. À medida que concessionárias e fábricas continuam a conectar mais de seus equipamentos, conjuntos de dados como o ICS-NAD serão vitais para transformar o ruído bruto da rede em sistemas de alerta precoce que ajudam a manter as luzes acesas, as torneiras funcionando e as linhas de produção em movimento.
Citação: Zhou, X., Cheng, Z., Wang, C. et al. A dataset collected in real-world industrial control systems for network attack detection. Sci Data 13, 399 (2026). https://doi.org/10.1038/s41597-026-06738-x
Palavras-chave: sistemas de controle industrial, detecção de ciberataques, conjunto de dados de intrusão de rede, segurança de infraestrutura crítica, segurança em aprendizado de máquina