Clear Sky Science · zh
通过基于Transformer的特征学习与合成数据生成推进APT检测
为何隐蔽的网络攻击至关重要
现代组织依赖于持续运转的计算机网络,从网页浏览到关键政府服务不等。然而,在这些数字噪声中潜伏着一些最危险的网络威胁:高级持续性威胁(APT)。这些长期、隐蔽的攻击通常由高技能团队支持,能够在系统中悄然潜伏数月。本文提出了一种名为 ET‑SDG 的新方法,利用人工智能的最新进展来筛查海量网络流量,学习何为真正可疑的行为,并比以往工具更可靠地发现罕见但严重的APT活动。
在数字干草堆中寻找针的难题
APT 活动不同于日常恶意软件,因为它们运行缓慢、具有适应性且目标明确。它们利用诸如利用未知软件漏洞和将通信隐藏在看似正常流量中的技巧。传统入侵检测系统依赖固定规则或已知签名,因此新型或被修改的攻击可能会被漏掉。近来的研究转向机器学习,以在网络“流”——关于谁与谁通信、持续时间以及交换了多少数据的摘要——中寻找微妙模式。但有两个问题仍然存在:这些流中的模式复杂,以及现实世界数据高度不平衡,正常流量远多于已确认的APT攻击。这种不平衡会导致AI系统在识别正常行为方面表现出色,却悄然忽视那些最重要的罕见事件。

更聪明地解读网络流
ET‑SDG 框架通过分阶段处理来解决第一个问题——理解复杂流量。其从每个网络流的数十个数值描述符开始。一种称为 ExtraTrees 的方法充当快速的粗略审阅者:它比较许多可能的决策树,以确定哪些特征在区分攻击流量与正常流量时最有帮助,并丢弃其余特征。精简后的数据随后传入 Transformer,一类因推动现代语言工具而闻名的模型。在此,Transformer 并非读取句子中的单词,而是“读取”流量特征,利用其注意力机制学习连接不同属性之间如何相互影响。其结果是为每对通信主机生成一个紧凑的、具上下文感知的指纹,足以捕捉多步APT活动的行为特征。
生成逼真的罕见攻击示例
第二个主要障碍是,与大量良性流量相比,已确认的APT实例非常少。简单复制这些稀缺攻击记录(即基本过采样技术)有导致模型记忆而非泛化的风险。ET‑SDG 通过一种条件生成模型用于合成(CGMS)来应对这一点,基于一种称为条件生成对抗网络的神经网络类型构建。该生成器学习创建在统计上类似已知APT行为的新合成数据点,而另一网络则尝试分辨真伪。通过共同训练,这个系统在训练数据范围内生成更多多样化的攻击流量示例,从而避免污染评估数据。随后,一个基于注意力的层聚焦于这些丰富表示中最有信息量的部分,然后最终分类器决定某对IP是否可能为良性或正遭受攻击。

在真实且困难的数据集上测试
为了验证该设计是否有效,作者在一个结合真实APT恶意软件捕获与政府网络流量的数据集上评估了 ET‑SDG,并使用了一个以严重类别不平衡著称的大型公共入侵检测基准。他们将系统与一系列替代方法进行比较,从处理流量如时间序列的较简单深度学习模型,到强调主机间关系的基于图的方法。在多项指标上——包括准确率、精确率、召回率和F1分数——ET‑SDG 一致地与大多数竞争方法匹配或优于它们,常常提升一到四个百分点。重要的是,它在保持漏报和误报较低的同时表现稳定,并且在重复交叉验证中数据重洗时性能仍然稳定。
对日常安全的意义
对非专家来说,关键结论是 ET‑SDG 提供了一种更细致的网络流量监测方式。通过先学习哪些细节重要,然后在上下文中解释这些细节,最后为罕见攻击创造逼真的额外示例,该系统在从日常数字噪声中识别隐蔽APT行为方面更为出色。尽管该方法比旧方法计算开销更大且目前主要在离线实验中测试,但它表明将先进的模式识别与谨慎的合成数据生成相结合,能够显著增强预警系统。就实际而言,这有助于安全团队更早发现严重入侵,专注于更高质量的告警,并更好地保护关键服务免受长期入侵的威胁。
引用: Danh, L.T.K., Xuan, C.D. & Van, N.N. Advancing APT detection through transformer-driven feature learning and synthetic data generation. Sci Rep 16, 11772 (2026). https://doi.org/10.1038/s41598-026-41317-5
关键词: 高级持续性威胁, 网络入侵检测, Transformer模型, 合成数据生成, 网络安全人工智能