Clear Sky Science · zh

BERT-spaCy 混合自然语言处理与区块链增强自适应 CTI 用于 IOC 提取与威胁预测

2026-03-02 · 返回目录

为何更智能的网络防御很重要

我们的日常生活如今依赖数字系统——从医院病历与在线银行到智能家居和工业机器人。然而，网络攻击的发展速度和复杂度往往超过了许多防御手段的应对能力。本文提出了一种先进且可行的网络威胁情报方法，旨在更早发现攻击、能自动从新事件中学习，并让组织在无需担忧篡改的情况下安全共享预警信号。

把混乱的线索变成清晰的预警

现代攻击会在电子邮件、安全日志、社交媒体帖子和技术报告中留下零散痕迹。这些痕迹被称为妥协指标，包含可疑的网址、IP 地址、恶意软件名称和文件指纹等。作者构建了一个混合文本分析引擎，结合了三种技术：用于高度结构化项目的人工模式、用于通用文本处理的快速语言工具包（spaCy），以及用于理解上下文的强大深度学习模型（BERT）。这些工具协同工作，能从非结构化文本中提取有用的威胁线索，准确率约为 95%，即便语言噪声大或风格非正式也能保持性能。

教机器识别并适应攻击

仅提取线索还不够；系统必须判断某一事件是良性还是危险。为此，该框架使用了一个由多种机器学习模型组成的集成，包括 BERT、循环网络（LSTM）以及一种较简单的概率方法。每种模型各有优势——深度上下文理解、序列信息把握或在小样本下的稳健性——它们的判断通过置信度加权投票合并。系统设计为持续学习：当有新的带标签样本到来时，内部参数会更新而无需从头训练。在一年的模拟运行中，这种自适应方法将检测准确率从 75% 提升到 93%，并减少了误报，尤其在真实攻击稀少的偏斜数据中效果显著。

用不可更改的记录锁定信任

网络防御中的一个长期问题是信任：如果组织担心共享的威胁信息可能被修改、滥用或在事后受到质疑，它们就可能犹豫不决。为了应对这一点，该框架增加了一个轻量级的、受区块链启发的账本。每份处理过的报告——包括其提取的线索、系统判定和观察时间——都被封装进一个与前一块相连的加密区块中，形成一个极难被悄然篡改的审计链。测试表明，链条中的故意篡改可以被可靠地检测到。由于设计精简并在单节点上运行，每条记录仅增加几毫秒的开销，使系统对繁忙的安全运营中心仍然保持足够快。

在不同数字环境中测试可靠性

网络防御常在某一数据集上表现良好，但在环境变化时失效。因此，作者在两个广泛使用的网络流量集合上测试他们的系统，这些集合在攻击类型和模式上有所不同。他们引入了“跨数据集鲁棒性指数”来衡量模型在不同数据集间迁移时表现的一致性。基于 BERT 的组件在该指标上得分几乎完美，略优于 LSTM，并明显优于更传统的方法。包括广泛模拟和效应量分析在内的详细统计检验表明，这些提升不太可能由偶然造成，并在噪声和数据不均衡的情况下保持稳定。

这对日常安全意味着什么

简而言之，这项工作展示了如何将分散的人类书写报告和原始网络痕迹转化为一个实时、可信的预警系统。通过结合先进的语言理解、自适应学习和防篡改账本，该框架能更准确地识别威胁、反应更迅速——将每批报告的处理时间大约缩短一半——并保存可靠的可审计历史记录。对银行、医院、工业场所和物联网环境而言，这样的系统可以提供一个共享且透明的网络防御骨干，能够随着新攻击的出现持续改进，而不是等待静态规则集合来跟进。

引用: Mishra, S., Alfahidah, R.A. & Alharbi, F. BERT-spaCy hybrid NLP and blockchain-enhanced adaptive CTI for IOC extraction and threat prediction. Sci Rep 16, 8147 (2026). https://doi.org/10.1038/s41598-025-34505-2

关键词: 网络威胁情报, 恶意软件检测, 区块链安全, 机器学习, 网络入侵