Clear Sky Science · es
Detección jerárquica de malware, identificación de familia y atribución de variante mediante modelos híbridos basados en CNN sobre imágenes ejecutables en escala de grises
Por qué esto importa para usuarios informáticos cotidianos
El software malicioso ya no llega como unos pocos virus fácilmente reconocibles. Hoy, los atacantes generan rápidamente innumerables programas de aspecto similar que eluden las herramientas antivirus tradicionales. Este estudio muestra que, al convertir los programas en imágenes sencillas en blanco y negro y analizarlas con redes modernas de reconocimiento de imágenes, un equipo puede no solo detectar malware con una fiabilidad casi perfecta, sino también clasificarlo en familias e incluso en cepas específicas. Ese nivel de detalle ayuda a los defensores a entender qué intenta hacer un ataque, de dónde procede y cómo frenarlo.
Del byte del programa a la imagen en gris
Los autores se centran en archivos ejecutables de Windows, el tipo de programas que comúnmente propagan malware en portátiles, ordenadores de sobremesa y servidores. En lugar de diseccionar cada archivo manualmente o ejecutarlo en un laboratorio controlado, leen sus bytes crudos de principio a fin y asignan cada byte a un píxel en una imagen en escala de grises. El resultado es una imagen en blanco y negro de 224×224 cuyos texturas y bloques reflejan la estructura interna del archivo: regiones de código, relleno, cargas cifradas y más. Cada archivo de su conjunto de datos se trata de esta manera, tanto si es un software inofensivo como si pertenece a una de 33 variantes de malware distintas agrupadas en cinco familias amplias como ransomware y spyware. 
Un modelo, tres respuestas a la vez
Sobre estas imágenes, el equipo construye un sistema de aprendizaje profundo que funciona como un experimentado inspector aduanero. Con una sola mirada a una imagen entrante, responde tres preguntas a la vez: ¿es este archivo benigno o malicioso? Si es malicioso, ¿a qué familia amplia pertenece? ¿Y qué variante específica lo describe mejor? El núcleo del sistema es una red convolucional, el mismo tipo de arquitectura usado para el reconocimiento de imágenes cotidiano. Esta columna vertebral compartida aprende características visuales generales de las imágenes en escala de grises. Sobre ella se sitúan tres ramas de salida paralelas que se especializan en los tres niveles de decisión, de modo que el sistema puede aprender cómo se relacionan los patrones gruesos y finos entre sí en lugar de tratar cada tarea por separado.
Tres maneras de leer la estructura oculta
Para explorar qué diseño funciona mejor, los autores prueban tres versiones “híbridas” del modelo. En una, una cabeza de convolución temporal trata la imagen aplanada como una secuencia y utiliza filtros dilatados para conectar regiones distantes, capturando patrones de largo alcance dispersos por el archivo. Una segunda versión añade una cabeza basada en cápsulas que rastrea cómo las partes pequeñas se combinan en estructuras mayores, con el objetivo de distinguir variantes estrechamente relacionadas que comparten muchos componentes. La tercera versión utiliza una capa de secuencia bidireccional que lee la imagen tanto de izquierda a derecha como de derecha a izquierda, emulando cómo el contexto a ambos lados de una región puede cambiar su significado. Las tres se entrenan exactamente con el mismo conjunto de datos balanceado, con representación igual de cada variante de malware y de archivos benignos, para asegurar que las diferencias de rendimiento reflejen la arquitectura y no peculiaridades de los datos. 
¿Qué tan bien funciona?
Sobre más de 3.000 imágenes de prueba reservadas, los híbridos rinden de forma notable. Para la pregunta más simple—“¿es malicioso o no?”—dos de los tres alcanzan una precisión perfecta del 100% y el tercero solo falla con un puñado de archivos benignos, equivocándose por precaución. Al pedir que identifiquen la familia amplia, la precisión sigue siendo muy alta, en el 97–98%, con solo confusiones ocasionales entre grupos con comportamientos similares, como spyware y troyanos. La prueba más exigente es nombrar la variante exacta entre 33 opciones. Incluso aquí, los tres modelos alcanzan un 93–94% de precisión usando nada más que imágenes en escala de grises, y los desgloses detallados muestran que la mayoría de las variantes se reconocen con muy alta fiabilidad. Un diseño, que empareja la columna vertebral convolucional con convoluciones temporales, ofrece el rendimiento más equilibrado a lo largo de todas las variantes.
Qué significa esto para las investigaciones digitales
Para equipos de seguridad y analistas forenses, estos resultados son más que un punto de referencia académico. En un incidente real, pueden recogerse miles de programas sospechosos de máquinas infectadas. Ejecutar un análisis de comportamiento completo en cada uno es lento y consume muchos recursos. El sistema propuesto basado en imágenes puede filtrar rápidamente archivos inofensivos, agrupar el resto por familia y señalar las variantes probables en una sola pasada, todo sin ejecutar los archivos. Eso lo convierte en una herramienta de triaje poderosa: los investigadores pueden centrar sus herramientas más costosas en las muestras más importantes mientras obtienen información a nivel de campaña. El estudio demuestra que imágenes simples en gris de bytes de programa, procesadas con diseños de redes neuronales cuidadosamente escogidos, son suficientes para respaldar una atribución de malware fina que antes requería análisis mucho más elaborados y prolongados.
Cita: Saxena, M., Das, T. Hierarchical malware detection, family identification, and variant attribution using CNN-based hybrid models on grayscale executable images. Sci Rep 16, 9948 (2026). https://doi.org/10.1038/s41598-026-40655-8
Palabras clave: detección de malware, aprendizaje profundo, imágenes en escala de grises, modelos híbridos CNN, informática forense