Clear Sky Science · zh

通过机器学习增强的浏览器扩展实现实时识别网络钓鱼攻击

· 返回目录

假冒网站为何关系到每个人

每天,人们都会收到看似来自银行、快递服务或工作单位的消息——但其中一些其实是精心设计的陷阱。网络钓鱼通过伪装邮件和网站窃取密码、信用卡号及其他个人信息。随着犯罪分子在模仿真实网站方面愈发熟练,简单的黑名单和直觉已不足以防护。本文描述了一种新的浏览器插件,它在后台悄然监视你访问的页面,并利用机器学习实时标记危险站点,旨在为普通用户提供强有力的保护,而无需他们成为安全专家。

Figure 1
Figure 1.

现代网络钓鱼如何欺骗我们

网络钓鱼已成为全球最常见的网络犯罪之一,占据大量报告的网络事件和财务损失。攻击者发送带有紧迫措辞的诱导邮件——“验证您的账户”“更新您的付款”“追踪您的包裹”——并将受害者引导到与真实银行、购物或云服务页面极为相似的假冒网站。许多此类网站现在使用有效的 HTTPS 证书并具有精良的设计,因此像“没有小锁图标”或“页面丑陋”这样的旧式警示已不起作用。调查和犯罪报告表明,20 至 40 多岁的成年人是重点攻击对象,安全团队仍对绕过过滤器的基于邮件的诈骗深感担忧。

更智能地审视网址和页面外观

研究人员认为,阻止网络钓鱼的最安全位置是在浏览器内部、页面加载的那一刻。他们为 Google Chrome(及兼容浏览器)开发的扩展检查两个主要线索:网址本身和页面的外观。它从每个站点收集“词法”细节(例如 URL 长度、异常符号或可疑子域);“结构”和域名相关信息(如流量与注册数据);以及“视觉”线索,如布局模块、颜色和标识。一个无头浏览器在受控环境中渲染每个页面,将其切分为矩形区域,并记录表单、标识和导航栏出现的位置。随后它将这种视觉指纹与受信任站点的指纹进行比对,寻找可能是伪造的近似副本。

用数字“狼群”挑选最具判别力的线索

由于系统从每个站点收集了数十个度量,它必须决定哪些度量确实有助于区分诈骗与安全页面。为此,作者借用了受灰狼群狩猎行为启发的算法。在这种“灰狼优化器”中,多个候选特征集相互竞争,算法逐步收敛到一个紧凑的子集,该子集在捕获钓鱼站点和避免误报之间取得最佳平衡。然后将这些选定特征输入三个机器学习模型——支持向量机、决策树,尤其是随机森林(将多棵决策树组合成一个强大的集成)。训练使用来自 PhishTank 和学术档案等公开集合的约 8 万个网站,并采用额外技术来处理合法与恶意站点之间的不平衡问题。

Figure 2
Figure 2.

把实验室模型变为有用的浏览器工具

优化后的随机森林模型达到约 98–99% 的准确率,马修斯相关系数接近 0.96——这是一个同时考虑漏报和误报的严格度量。在带有 Chrome 扩展的实时测试中,系统对每个 URL 的扫描耗时约 200 毫秒,足够快速以致用户不会察觉延迟。当检测到有风险的页面时,插件会显示清晰的警告,并允许用户选择返回或自行承担风险继续访问。与 Google Safe Browsing 和现有反钓鱼扩展等流行工具相比,该系统表现出更高的检测率、更少的误报,并能识别误导性地址——即使它们被缩短、轻度混淆或是新创建的。

这对日常浏览意味着什么

对非专业人士来说,关键结论是:钓鱼防护不再只能依赖猜测或人工黑名单。通过将链接的书写方式与页面外观相结合,并自动选择最具信息量的信号,所提出的扩展能在诈骗首次出现时就识别出许多欺诈,而不仅仅是在有人举报之后。作者也承认攻击者会持续进化,模型必须定期重新训练并扩展到手机和其他浏览器。不过,他们的工作表明,一个智能且保护隐私的插件在你的设备上运行时,可以作为一双不知疲倦的额外眼睛——在你访问每个站点时悄然检查,并在情况异常时介入,远在匆忙点击导致昂贵损失之前。

引用: Dandotiya, M., Goyal, N., Khunteta, A. et al. Real time identification of phishing attacks through machine learning enhanced browser extensions. Sci Rep 16, 6612 (2026). https://doi.org/10.1038/s41598-026-35655-7

关键词: 网络钓鱼检测, 浏览器扩展, 机器学习, 网络安全, 假冒网站