Clear Sky Science · pt

Detecção hierárquica de malware, identificação de família e atribuição de variante usando modelos híbridos baseados em CNN em imagens executáveis em tons de cinza

· Voltar ao índice

Por que isso importa para usuários comuns de computador

Software mal‑icioso não chega mais como alguns vírus facilmente reconhecíveis. Hoje, atacantes geram rapidamente inúmeros programas muito semelhantes que passam despercebidos pelas ferramentas antivírus tradicionais. Este estudo mostra que, ao transformar programas em imagens simples em preto e branco e interpretá‑las com redes modernas de reconhecimento de imagens, um computador pode não só detectar malware com confiabilidade quase perfeita, mas também classificá‑lo em famílias e até em cepas específicas. Esse nível de detalhe ajuda os defensores a entender o que um ataque pretende, de onde veio e como detê‑lo.

De bytes de programa a imagens em tons de cinza

Os autores concentram‑se em arquivos executáveis do Windows, o tipo de programa que comumente espalha malware em laptops, desktops e servidores. Em vez de dissecar cada arquivo manualmente ou executá‑lo em um laboratório controlado, eles leem seus bytes brutos diretamente e mapeiam cada byte para um pixel em uma imagem em tons de cinza. O resultado é uma imagem 224×224 em preto e branco cujas texturas e blocos refletem a estrutura interna do arquivo: regiões de código, preenchimento, cargas criptografadas e mais. Cada arquivo em seu conjunto de dados é tratado dessa maneira, seja software inofensivo ou uma das 33 variantes distintas de malware abrangendo cinco famílias amplas, como ransomware e spyware.

Figure 1
Figure 1.

Um modelo, três respostas de uma vez

Sobre essas imagens, a equipe constrói um sistema de aprendizado profundo que age como um experiente agente de alfândega. Com um único olhar na imagem de entrada, responde a três perguntas ao mesmo tempo: este arquivo é benigno ou malicioso? Se for malicioso, a que família ampla ele pertence? E qual variante específica o descreve melhor? O núcleo do sistema é uma rede convolucional, o mesmo tipo de arquitetura usado no reconhecimento cotidiano de imagens. Essa espinha dorsal compartilhada aprende características visuais gerais a partir das imagens em tons de cinza. Acima dela há três ramos de saída paralelos que se especializam nos três níveis de decisão, de modo que o sistema aprende como padrões grosseiros e finos se relacionam em vez de tratar cada tarefa separadamente.

Três maneiras de ler estruturas ocultas

Para investigar que desenho funciona melhor, os autores testam três versões “híbridas” do modelo. Em uma, uma cabeça de convolução temporal trata a imagem achatada como uma sequência e usa filtros dilatados para conectar regiões distantes, capturando padrões de longo alcance espalhados pelo arquivo. Uma segunda versão adiciona uma cabeça baseada em cápsulas que acompanha como pequenas partes se combinam em estruturas maiores, visando distinguir variantes intimamente relacionadas que compartilham muitos componentes. A terceira versão usa uma camada de sequência bidirecional que lê a imagem tanto da esquerda para a direita quanto da direita para a esquerda, imitando como o contexto em ambos os lados de uma região pode mudar seu significado. As três são treinadas exatamente no mesmo conjunto de dados balanceado, com representação igual de cada variante de malware e de arquivos benignos, para garantir que as diferenças de desempenho reflitam a arquitetura em vez de peculiaridades dos dados.

Figure 2
Figure 2.

Quão bem isso funciona?

Em mais de 3.000 imagens de teste mantidas à parte, os híbridos apresentam desempenho notável. Para a pergunta mais simples — “malicioso ou não?” — dois dos três alcançam perfeita acurácia de 100%, e o terceiro erra apenas em algumas exceções benignas, adotando uma postura conservadora. Ao serem solicitados a nomear a família mais ampla, a acurácia permanece muito alta, entre 97% e 98%, com confusões ocasionais entre grupos comportamentalmente semelhantes, como spyware e trojans. O teste mais difícil é identificar a variante exata entre 33 opções. Mesmo aqui, os três modelos atingem 93%–94% de acurácia usando somente imagens em tons de cinza, e a divisão detalhada das pontuações mostra que a maioria das variantes é reconhecida com confiabilidade muito alta. Um desenho, que combina a espinha dorsal convolucional com convoluções temporais, oferece o desempenho mais equilibrado entre todas as variantes.

O que isso significa para investigações digitais

Para equipes de segurança e analistas forenses, esses resultados vão além de um referencial acadêmico. Em um incidente real, milhares de programas suspeitos podem ser coletados de máquinas infectadas. Executar análise comportamental completa em cada um é lento e consome muitos recursos. O sistema proposto baseado em imagens pode filtrar rapidamente arquivos inofensivos, agrupar os demais por família e apontar variantes prováveis em uma única passagem, tudo sem executá‑los. Isso o torna uma ferramenta de triagem poderosa: os investigados podem concentrar suas ferramentas mais onerosas nas amostras mais importantes enquanto ainda obtêm visão em nível de campanha. O estudo demonstra que imagens simples em tons de cinza de bytes de programas, processadas com desenhos de redes neurais cuidadosamente escolhidos, são suficientes para suportar atribuição de malware de granulação fina que antes exigia análises muito mais elaboradas e demoradas.

Citação: Saxena, M., Das, T. Hierarchical malware detection, family identification, and variant attribution using CNN-based hybrid models on grayscale executable images. Sci Rep 16, 9948 (2026). https://doi.org/10.1038/s41598-026-40655-8

Palavras-chave: detecção de malware, aprendizado profundo, imagens em tons de cinza, modelos híbridos CNN, perícia digital