Clear Sky Science · zh

使用启发式搜索算法的混合深度表示学习提升恶意软件检测性能

· 返回目录

为何手机的安全越来越难以保证

我们中的大多数人如今依赖智能手机来处理银行业务、购物、工作和私人对话。与此同时,犯罪分子正在构造越来越难以察觉的恶意应用,能够窃取数据、监视用户或劫持设备。传统的杀毒工具难以跟上步伐。本研究提出了一种新的方法,使用先进的深度学习技术混合,来识别危险的 Android 应用,旨在在真实场景中提供更快、更可靠的防护。

Figure 1
Figure 1.

日常应用中日益增长的威胁

恶意软件——有害软件——已经从令人讨厌的病毒演变为网络犯罪的复杂工具集。尤其在 Android 手机上,伪装应用和被污染的下载可以悄无声息地打开对银行信息、个人照片、企业机密甚至整个网络的访问权限。犯罪分子越来越多地通过加密、代码“打包”、延迟触发有害功能等手法隐藏其代码,因此一次性简单扫描不再能揭示应用的真实行为。结果,安全系统必须学会识别微妙的行为模式,而不是依赖固定签名或有限的已知威胁列表。

教会机器识别危险模式

机器学习和深度学习——从数据中学习的人工智能形式——在恶意软件检测中显示出潜力。这些系统不是依赖手写规则,而是在大量标注为安全或恶意的应用上进行训练。它们学习哪些特征组合(如权限、编程指令或使用历史)往往预示危险。然而,现有模型在数据集庞大、不平衡或噪声多时常常表现不佳,且许多模型对计算资源的需求过高,不适合在手机或其他资源受限设备上实际使用。当犯罪分子创造全新攻击风格时,它们也可能无法适应,从而留下防护漏洞。

用于更智能应用筛查的混合“智能体”

作者提出了一个名为 IMDP‑HDL 的新框架,将多种深度学习构件结合起来,更好地捕捉 Android 应用数据中隐藏的线索。首先,他们使用称为 Z 分数标准化的统计步骤,将每个特征重新缩放到共同范围,从而避免某一类信息主导学习过程。接着应用启发式搜索方法,只选择最具信息性的特征,以去除噪声并加快训练。系统的核心是一个混合网络,融合了三种思想:擅长发现局部模式的卷积层;能够正向和反向追踪事件序列的双向长短期记忆(BiLSTM)模块;以及自注意力机制,使模型在决策时能关注数据中最相关的部分。

Figure 2
Figure 2.

新系统的表现如何

为了测试他们的方法,研究人员使用了若干公开可用的 Android 恶意软件数据集,总计包含超过一万五千个应用及每个应用数百个描述性特征。他们分阶段训练混合模型,逐步增加训练周期,并跟踪准确率、精确率、召回率以及称为 F1 的综合评分等经典性能指标。在主要的 Android 恶意软件数据集上,IMDP‑HDL 框架达到约 99.2% 的准确率,超过了多种竞品方法,包括传统神经网络、循环网络和其他混合深度学习模型。它的运行速度也明显快于竞争的深度学习系统,在某些情况下分析所需时间不到五秒,而其他方法大约需要两到三倍时间。

当前的限制与对未来的期望

尽管结果令人鼓舞,作者也承认该模型是在特定数据集上训练的,可能无法反映现实中流通的威胁的全部多样性。像零日漏洞和高度变异的恶意软件家族等快速变化的策略仍可能漏检。将此类模型直接部署在手机、汽车或内存与处理能力有限的物联网设备上也可能面临挑战。因此,研究人员将这项工作视为基础性研究。他们建议扩展到更广泛的数据集,加入使模型能随着新威胁出现而自我更新的机制,并探索解释其决策的方法,以便安全分析师和用户理解为何某个应用被标记。

这对普通用户意味着什么

简单来说,这项研究表明,通过混合多种先进的学习技术,计算机在区分安全应用与危险应用方面可以明显提升,即便恶意方努力隐藏其行为。尽管这不能取代谨慎的用户行为——例如仅从可信来源下载应用——但它为未来安全工具内置更轻巧、更快速且更准确的防护指明了方向。如果得到改进并广泛部署,像 IMDP‑HDL 这样的方案可能会使隐藏的恶意软件更难在我们日常依赖的智能手机和连网设备上长期潜伏而不被发现。

引用: Anuradha, A., Chouhan, A.S. & Srinivas Rao, S. Improving malware detection performance using hybrid deep representation learning with heuristic search algorithms. Sci Rep 16, 4847 (2026). https://doi.org/10.1038/s41598-026-35481-x

关键词: Android 恶意软件, 深度学习 安全, 移动网络安全, 恶意应用, 神经网络