Clear Sky Science · zh
使用基于卷积神经网络的混合模型对灰度可执行文件图像进行分层恶意软件检测、家族识别与变种归属
这对普通电脑用户为何重要
恶意软件不再只是少数几种容易识别的病毒。如今,攻击者迅速生成大量相似程序,能绕过传统杀毒工具。该研究表明,通过将程序转成简单的黑白图片并用现代图像识别网络读取,计算机不仅能以接近完美的可靠性识别恶意软件,还能将其归入家族甚至特定的变种。这样的细粒度信息有助于防御者理解攻击意图、来源并制定应对措施。
从程序字节到灰度图片
作者集中研究 Windows 可执行文件,这类程序通常在笔记本、台式机和服务器上传播恶意软件。他们没有逐个手工解析文件或在受控环境中运行,而是直接读取文件原始字节,将每个字节映射为灰度图像中的一个像素。得到的是一张 224×224 的黑白图片,其纹理和块状结构反映了文件内部的结构:代码区、填充、加密载荷等。数据集中每个文件都以这种方式处理,无论是无害软件还是 33 个不同恶意变种之一,涵盖五大类如勒索软件和间谍软件。 
一个模型,同时给出三种答案
基于这些图像,团队构建了一个类似经验丰富海关检查员的深度学习系统。只需看一眼输入图片,它就同时回答三个问题:这个文件是良性还是恶意?若为恶意,它属于哪一类?以及最可能的具体变种是哪一个?系统的核心是卷积网络——与日常图像识别相同的架构。共享的主干从灰度图中学习通用的视觉特征。在其之上有三个并行的输出分支,分别专注于三个决策层级,这样系统可以学习粗粒度和细粒度模式之间的关系,而不是把每个任务单独对待。
三种方式读取隐藏结构
为了探究哪种设计效果最好,作者测试了三种“混合”模型变体。一种采用时间卷积头,将展平的图像当作序列处理,使用扩张滤波器连接远距区域,以捕捉散布在文件中的长程模式。第二种加入了基于胶囊(capsule)的头部,跟踪小部件如何组合成更大结构,旨在区分共享许多组件的近似变种。第三种使用双向序列层,从左到右和从右到左读取图像,模拟区域两侧的上下文如何改变其含义。三种模型都在完全相同且平衡的数据集上训练,每个恶意变种和良性文件的样本数相等,以确保性能差异反映的是架构而非数据偏差。 
效果如何?
在超过 3,000 张留出测试图像上,混合模型表现非常出色。对于最基本的问题——“是否为恶意?”——三种模型中有两种达到了完美的 100% 准确率,第三种仅错判了少数良性文件,偏向谨慎。问到更广泛的家族归类时,准确率仍然很高,为 97–98%,只有在行为相似的组(如间谍软件和特洛伊木马)之间偶有混淆。最难的测试是从 33 个选项中指出具体变种。即便如此,三种模型都在仅用灰度图像的情况下达到了 93–94% 的准确率,详细分数显示大多数变种都能被高度可靠地识别。其中将卷积主干与时间卷积结合的设计,在所有变种上表现最为均衡。
这对数字侦查意味着什么
对安全团队和取证分析师而言,这些结果不仅是学术基准。在真实事件中,可能会从受感染机器收集到成千上万的可疑程序。对每一个都进行完整的行为分析既慢又耗费资源。所提出的基于图像的系统可以快速筛除无害文件、按家族分组其余样本,并在一次处理流程中定位可能的变种,且无需执行样本。这使其成为强有力的分流工具:调查人员可将最昂贵的分析资源集中用于最重要的样本,同时仍能获得攻击活动层面的洞见。研究表明,对程序字节的简单灰度图像,配合精心选择的神经网络设计,足以支持过去需要更复杂和耗时分析才能实现的细粒度恶意软件归属。
引用: Saxena, M., Das, T. Hierarchical malware detection, family identification, and variant attribution using CNN-based hybrid models on grayscale executable images. Sci Rep 16, 9948 (2026). https://doi.org/10.1038/s41598-026-40655-8
关键词: 恶意软件检测, 深度学习, 灰度图像, CNN 混合模型, 数字取证