Clear Sky Science · zh

用于网络攻击检测的真实工业控制系统数据集

· 返回目录

为什么工厂网络中的隐蔽攻击与您息息相关

电力、清洁用水和制造的商品都依赖那些默默控制泵、涡轮和阀门的看不见的计算机。随着这些工业控制系统为实现“智能化”和高效化而接入更广泛的网络,它们也继承了与办公电脑和家庭路由器相同的网络风险。本文介绍了 ICS-NAD——一个来自真实工业现场的大型、逼真的网络数据集合,旨在帮助研究人员在攻击扰乱日常生活之前发现并阻止它们。

Figure 1
Figure 1.

现代工厂不再与世隔绝

工业控制系统过去通常是物理隔离的,几乎不与互联网相连。在迈向工业4.0的过程中,公司现在将这些系统联网,以便远程监控设备、分析性能并应用人工智能。反面是攻击者也能够通过这些数字通道入侵。全球范围内已有严重事件影响到电力、供水和其他关键服务,表明利害关系重大。要尽早检测入侵,需要良好的训练数据来支持安全工具,但现有的数据集往往规模小、人为性强,或缺少合适的攻击类型与标注。

构建更贴近现实的工业网络图景

作者通过创建 ICS-NAD 来弥补这些不足,这是一个从大型测试场记录的基准数据集,模仿真实工业环境。测试场包含十个不同品牌的工业控制器和十种不同的工艺搭配;在数据集中,作者聚焦于三种在热电厂仿真和污水处理仿真中常见的品牌。每个品牌使用不同且广泛部署的工业协议,这些协议以未加密的方式传输消息,使研究人员能够观察设备间通信的细粒度细节。网络流量直接从交换机处捕获,人机界面向可编程逻辑控制器发送命令,后者驱动泵、加热器及其他设备。

捕捉破坏系统的多种方式

为反映真实威胁的多样性,ICS-NAD 包含了 20 种常见攻击类型,分为四个家族。侦察类攻击悄然扫描活动设备和开放端口。拒绝服务和分布式拒绝服务攻击通过大量数据包淹没网络,旨在使设备不堪重负,从而延迟或丢弃合法命令。伪造数据注入攻击伪造消息与响应以误导控制器或操作员,而中间人攻击则介入设备之间,篡改传输中的流量。对于每种场景,研究人员不仅记录原始数据包,还记录每次攻击的开始与结束时间,并采用两步标注方法,将这些时间日志与特定攻击规则相结合,生成明确的标签,指示每个观察到的流是正常还是属于特定攻击。

Figure 2
Figure 2.

观察攻击前后流量模式的变化

除了简单地记录数据包外,团队还从流量中提取了 60 个描述性特征,例如每个方向上有多少数据包、数据包的大小以及到达的速度。这些特征既涵盖随时间变化的粗略趋势,也包含单个数据包内部的细节。通过检查来自其中一个控制系统的流量,他们展示了强烈的泛洪攻击如何改变通信节奏:数据包的突发变得更为尖锐、峰值更高、空闲间隙更短,这些都可以被统计量捕捉到。这种更丰富的视角有助于算法将工业活动的自然波动与入侵者导致的可疑激增区分开来。

用学习机器对数据集进行检验

为证明 ICS-NAD 的可用性,作者用它来训练和评估十种不同的机器学习与深度学习方法,范围从传统的决策树和最近邻方法到现代的提升树和神经网络。经过基本清洗与缩放后,他们自动选择了一小组最具信息量的特征,主要与流量流的大小与内容相关。即使每个模型只用四个特征,大多数方法在识别跨越四大类攻击时仍能达到较高分数,在准确率、召回率、精确率和 F1 得分上常常超过 90%。这表明 ICS-NAD 含有足够的多样性与真实性,便于研究人员构建并比较先进的检测工具。

这对更安全的基础设施意味着什么

通俗地说,ICS-NAD 就像工厂网络的详细飞行记录仪:它捕捉真实工业系统在正常状态下以及在多种网络攻击下的行为。由于它规模大、种类丰富且公开可用,它为安全研究人员、工程师和学生提供了一个共享的测试场,以开发更可靠的关键基础设施告警系统。随着公用事业和工厂继续将更多设备联网,像 ICS-NAD 这样的数据集将对把原始网络噪声转化为早期预警系统至关重要,帮助保持供电、供水与生产线的稳定运行。

引用: Zhou, X., Cheng, Z., Wang, C. et al. A dataset collected in real-world industrial control systems for network attack detection. Sci Data 13, 399 (2026). https://doi.org/10.1038/s41597-026-06738-x

关键词: 工业控制系统, 网络攻击检测, 网络入侵数据集, 关键基础设施安全, 机器学习安全