Clear Sky Science · zh

一种可扩展的混合计算智能框架，结合生物启发式优化用于高维恶意 URL 推断

2026-03-24 · 返回目录

为何识别恶意链接很重要

我们每天点击的链接可能悄然为诈骗、数据窃取和计算机感染打开大门。网络犯罪者不断发明新手法，因而简单的黑名单和基于规则的过滤器常常漏掉新型攻击。此研究探索了一种更智能的方式，通过将多种数学模型与受自然启发的搜索策略相结合来区分安全网站与有害网站，旨在使检测既准确又便于安全团队理解。

从简单规则走向更智能的防御

传统针对恶意网站的防御依赖于检查链接是否出现在黑名单中或是否匹配已知的文本或页面内容模式。这些方法可以阻止部分威胁，但在攻击者伪装地址、频繁更改或模仿可信站点时容易失效。论文认为，网络犯罪的快速变化要求灵活的工具：能从数据中学习、评估决策可靠性，并揭示哪些网址或其流量特征最具判别力。

Figure 1. 混合智能系统通过识别 URL 和流量中的关键模式来筛选网页链接，将安全网站与有害网站区分开来。

新检测框架如何工作

研究人员构建了一个“混合”检测框架，将三种不同的分类器与受自然启发的调优方法结合。两种分类器——线性判别分析与二次判别分析——擅长用简单的数学形状在安全与不安全流量之间划定清晰边界。第三种称为 CatBoost，是一种强大的基于树的方法，能处理混合类型的信息，例如描述 URL 长度的数字、包含多少异常字符或其网络流量的行为。研究没有采用默认设置，而是使用两种分别模拟慈母与狩猎鸟行为的搜索策略来探索大量参数组合，并保留表现最佳的设置。

模型从网页与网络线索中学到的内容

团队使用了包含 1,781 个网站地址的真实世界数据集，既包括无害网站也包括恶意网站，每个样本由注册记录、服务器响应和网络活动等细节描述。研究人员首先考察哪些信息片段确实有助于区分良性与恶性网站。统计检验显示，一些简单特征尤为显著：链接中出现的特殊符号数量、URL 长度、文本编码设置、域名查询频率以及被联系的远程主机数量。通过聚焦这些关键线索，框架避免了被噪声淹没，并使决策更易解释。

受自然启发的搜索使工具更精细

研究的核心是使用生物启发式搜索算法来微调三种分类器。一个优化器模仿教育、建议和养育的阶段，鼓励候选解的“族群”广泛探索，然后提炼出最佳选项。另一个则仿照鱼鹰发现并携带猎物的方式，先进行广泛扫描，然后在有希望的区域集中搜寻。两者共同调整内部设置，例如决策树应有多复杂或类间边界应多么平滑。通过重复交叉验证的实验表明，每个分类器都从这种调优中受益，但经优化后的 CatBoost 模型（称为 CAMA）表现最佳。

Figure 2. 逐步展示单个 URL 如何被拆解为特征，经由分层模型和类自然的优化器处理，以得出安全或不安全的判断。

更强的结果与更清晰的洞见

在多项测试中，混合模型在准确率、精确率、召回率以及平衡漏报和误报的相关指标上均优于更简单的版本。表现最好的模型能正确分类约 96% 的网站，同时将误封的安全网站数量保持在较低水平。为了避免系统成为难以理解的黑箱，作者采用了一种方法，为每次预测分配一组“贡献值”，表明每个特征在将决策推向安全或不安全方向时的影响大小。这揭示了例如大量奇怪符号和异常的地址查询行为是强烈的危险信号。

这对日常上网安全意味着什么

对非专业人士而言，结论是：对少数经过精心挑选的关于网址及其流量的线索进行检查，通过若干协作模型并借助受自然启发的调优策略，可以高可靠性地标记危险站点。尽管研究使用的数据集规模适中，且仍需在更大且不断变化的在线流量上进一步测试，但结果表明：结合多样性、精细搜索与清晰解释，能够让自动化防御既更敏锐又更值得信赖。

引用: Liu, H. A scalable hybrid computational intelligence framework with bio inspired optimization for high dimensional malicious URL inference. Sci Rep 16, 14842 (2026). https://doi.org/10.1038/s41598-026-44851-4

关键词: 恶意 URL 检测, 网络安全, 机器学习, 生物启发式优化, 网络流量分析