Clear Sky Science · pt

Revisão de detecção de intrusões com aprendizado supervisionado e avaliação multicritério

· Voltar ao índice

Por que proteger portas digitais é importante

Toda vez que navegamos na web, enviamos uma mensagem ou transmitimos um filme, sistemas de segurança invisíveis atuam nos bastidores para manter os invasores fora. Esses sistemas de detecção de intrusões vasculham oceanos de tráfego de rede em busca de sinais de ataques. Mas existem muitas formas de construir tais detectores, e cada uma traz compromissos entre velocidade, precisão e confiabilidade. Este artigo faz uma pergunta prática: dadas todas essas opções, quais métodos de detecção de intrusões são realmente os melhores e como podemos compará‑los de maneira justa?

Figure 1
Figure 1.

Como os computadores aprendem a identificar intrusos

A detecção moderna de intrusões frequentemente se apoia em aprendizado de máquina supervisionado, em que algoritmos são treinados com exemplos anteriores de conexões “normais” e “de ataque”. Uma vez treinados, esses modelos tentam rotular novo tráfego como seguro ou suspeito. O artigo explica famílias comuns de algoritmos usados nessa tarefa, como k‑nearest neighbors, árvores de decisão, random forests, máquinas de vetor de suporte, redes neurais e Naïve Bayes. Cada um tem pontos fortes e fracos: alguns lidam bem com um grande número de características, outros se destacam com dados bagunçados ou desbalanceados, e alguns são rápidos, porém menos precisos. Sistemas do mundo real também dependem muito de etapas de suporte, como limpeza de dados, codificação de campos textuais em números, normalização de escalas e seleção das características mais informativas.

Por que comparar detectores é mais difícil do que parece

À primeira vista, escolher o “melhor” detector de intrusões pode parecer tão simples quanto optar pelo de maior acurácia. Os autores mostram por que isso é enganoso. Conjuntos de dados de intrusão costumam ser altamente desbalanceados, com muito mais tráfego normal do que ataques, de modo que a acurácia pode ocultar pontos cegos sérios. Existem muitas outras medidas — como precisão (precision), revocação (recall), taxa de falsos alarmes, F‑measure e mais — além de preocupações muito práticas, como tempo de treinamento e a rapidez com que um modelo pode sinalizar uma conexão em tempo real. Melhorar uma medida pode piorar outra; por exemplo, extrair um pouco mais de acurácia pode tornar o modelo lento demais para uso em tempo real. Além disso, estudos na literatura usam conjuntos de dados diferentes, misturas distintas de ataques e pipelines de pré‑processamento variados, o que dificulta comparações diretas.

Um cartão de pontuação que pesa diversas necessidades ao mesmo tempo

Para enfrentar isso, o artigo propõe um “cartão de pontuação” estruturado baseado em um método de tomada de decisão chamado TOPSIS. Em vez de focar em um único número, o TOPSIS trata cada algoritmo como uma alternativa e cada medida de desempenho como um critério. Alguns critérios são “benefícios” (quanto maior melhor, como recall), enquanto outros são “custos” (quanto menor melhor, como tempo de computação). Os autores agrupam esses critérios em três preocupações amplas: como o modelo se comporta nos dados de treinamento (viés do modelo), quão bem ele prediz dados novos (viés de predição) e quanto tempo consome. Em seguida, atribuem diferentes padrões de pesos para refletir várias preferências do avaliador — por exemplo, alguém que prioriza detectar ataques, alguém que prioriza velocidade ou alguém que busca equilíbrio. Usando três conjuntos de dados bem conhecidos (KDD, NSL‑KDD e CICIDS2017), eles constroem uma grande tabela de resultados, normalizam os números para torná‑los comparáveis, aplicam os pesos escolhidos e calculam quão próximo cada algoritmo chega de um detector ideal “melhor” e de um detector ideal “pior”.

Figure 2
Figure 2.

O que os rankings revelam sobre métodos populares

Ao longo de muitos estilos de pesos e nos três conjuntos de dados, um padrão claro emerge. Métodos baseados em árvores — particularmente Random Tree, árvores de decisão C4.5 e Random Forest — repetidamente aparecem no topo ou próximo ao topo dos rankings. Eles combinam fortes pontuações de detecção com tempos razoáveis de treinamento e teste, e permanecem competitivos mesmo quando as preferências do avaliador mudam. Em contraste, a abordagem Naïve Bayes consistentemente fica perto da base do ranking, especialmente nos conjuntos de dados mais desafiadores NSL‑KDD e CICIDS2017. Sua suposição simples de que as características são independentes não se sustenta para tráfego de rede complexo, levando a um desempenho ruim no tratamento de padrões de ataque sutis e de alta dimensionalidade. O estudo também mostra que, embora mudar a importância dos critérios possa reorganizar a parte intermediária da classificação, os melhores e piores desempenhos permanecem amplamente estáveis.

O que isso significa para proteger redes

Para não especialistas, a mensagem principal é que não existe um detector de intrusões “mágico”, mas podemos comparar opções de maneira disciplinada e transparente. Ao tratar a escolha do modelo como uma decisão multicritério — em vez de um concurso de acurácia bruta — os autores mostram que certas famílias de algoritmos, especialmente as baseadas em árvores, são escolhas confiáveis em muitas condições, enquanto outras são arriscadas. A estrutura baseada em TOPSIS age como um sistema de classificação reutilizável: à medida que surgem novos conjuntos de dados e algoritmos, eles podem ser plugados no mesmo processo para revelar quais ferramentas oferecem o melhor equilíbrio entre detectar ataques rapidamente, limitar falsos alarmes e permanecer viáveis do ponto de vista computacional.

Citação: Abu-Shareha, A.A., Abualhaj, M.M., Hussein, A. et al. Supervised machine learning intrusion detection review and multi-criteria evaluation. Sci Rep 16, 14525 (2026). https://doi.org/10.1038/s41598-026-44773-1

Palavras-chave: detecção de intrusão, segurança em aprendizado de máquina, ataques de rede, avaliação de algoritmos, tomada de decisão multicritério