Clear Sky Science · zh

通过机器学习增强的浏览器扩展实现实时识别网络钓鱼攻击

2026-01-29 · 返回目录

假冒网站为何关系到每个人

每天，人们都会收到看似来自银行、快递服务或工作单位的消息——但其中一些其实是精心设计的陷阱。网络钓鱼通过伪装邮件和网站窃取密码、信用卡号及其他个人信息。随着犯罪分子在模仿真实网站方面愈发熟练，简单的黑名单和直觉已不足以防护。本文描述了一种新的浏览器插件，它在后台悄然监视你访问的页面，并利用机器学习实时标记危险站点，旨在为普通用户提供强有力的保护，而无需他们成为安全专家。

现代网络钓鱼如何欺骗我们

网络钓鱼已成为全球最常见的网络犯罪之一，占据大量报告的网络事件和财务损失。攻击者发送带有紧迫措辞的诱导邮件——“验证您的账户”“更新您的付款”“追踪您的包裹”——并将受害者引导到与真实银行、购物或云服务页面极为相似的假冒网站。许多此类网站现在使用有效的 HTTPS 证书并具有精良的设计，因此像“没有小锁图标”或“页面丑陋”这样的旧式警示已不起作用。调查和犯罪报告表明，20 至 40 多岁的成年人是重点攻击对象，安全团队仍对绕过过滤器的基于邮件的诈骗深感担忧。

更智能地审视网址和页面外观

研究人员认为，阻止网络钓鱼的最安全位置是在浏览器内部、页面加载的那一刻。他们为 Google Chrome（及兼容浏览器）开发的扩展检查两个主要线索：网址本身和页面的外观。它从每个站点收集“词法”细节（例如 URL 长度、异常符号或可疑子域）；“结构”和域名相关信息（如流量与注册数据）；以及“视觉”线索，如布局模块、颜色和标识。一个无头浏览器在受控环境中渲染每个页面，将其切分为矩形区域，并记录表单、标识和导航栏出现的位置。随后它将这种视觉指纹与受信任站点的指纹进行比对，寻找可能是伪造的近似副本。

用数字“狼群”挑选最具判别力的线索

由于系统从每个站点收集了数十个度量，它必须决定哪些度量确实有助于区分诈骗与安全页面。为此，作者借用了受灰狼群狩猎行为启发的算法。在这种“灰狼优化器”中，多个候选特征集相互竞争，算法逐步收敛到一个紧凑的子集，该子集在捕获钓鱼站点和避免误报之间取得最佳平衡。然后将这些选定特征输入三个机器学习模型——支持向量机、决策树，尤其是随机森林（将多棵决策树组合成一个强大的集成）。训练使用来自 PhishTank 和学术档案等公开集合的约 8 万个网站，并采用额外技术来处理合法与恶意站点之间的不平衡问题。

把实验室模型变为有用的浏览器工具

优化后的随机森林模型达到约 98–99% 的准确率，马修斯相关系数接近 0.96——这是一个同时考虑漏报和误报的严格度量。在带有 Chrome 扩展的实时测试中，系统对每个 URL 的扫描耗时约 200 毫秒，足够快速以致用户不会察觉延迟。当检测到有风险的页面时，插件会显示清晰的警告，并允许用户选择返回或自行承担风险继续访问。与 Google Safe Browsing 和现有反钓鱼扩展等流行工具相比，该系统表现出更高的检测率、更少的误报，并能识别误导性地址——即使它们被缩短、轻度混淆或是新创建的。

这对日常浏览意味着什么

对非专业人士来说，关键结论是：钓鱼防护不再只能依赖猜测或人工黑名单。通过将链接的书写方式与页面外观相结合，并自动选择最具信息量的信号，所提出的扩展能在诈骗首次出现时就识别出许多欺诈，而不仅仅是在有人举报之后。作者也承认攻击者会持续进化，模型必须定期重新训练并扩展到手机和其他浏览器。不过，他们的工作表明，一个智能且保护隐私的插件在你的设备上运行时，可以作为一双不知疲倦的额外眼睛——在你访问每个站点时悄然检查，并在情况异常时介入，远在匆忙点击导致昂贵损失之前。

引用: Dandotiya, M., Goyal, N., Khunteta, A. et al. Real time identification of phishing attacks through machine learning enhanced browser extensions. Sci Rep 16, 6612 (2026). https://doi.org/10.1038/s41598-026-35655-7

关键词: 网络钓鱼检测, 浏览器扩展, 机器学习, 网络安全, 假冒网站