Clear Sky Science · zh

基于用户活动的 DNS 指纹

· 返回目录

为什么你的网页访问会留下隐秘痕迹

每次你浏览网页时,计算机会悄悄向一种特殊的地址簿——域名系统(DNS)——询问如何到达对应站点。这些查询并不会消失。随着天数和周数的累积,它们会形成关于你访问哪些类型网站、在何时以及频率如何的模式。本文表明,这些模式具有足够的区分性,可以像行为指纹一样使用,使强大的算法能够将用户区分开来——即便他们的可见 IP 地址发生变化——这既为安全工作带来机会,也引发了严重的隐私问题。

互联网的电话簿与你的习惯

DNS 的作用是将人类可读的网络地址(如 www.google.com)翻译成计算机之间通信所用的数字 IP 地址。大多数人从不考虑它,但每次搜索、视频流、检查电子邮件或应用更新都会触发一次或多次 DNS 查询。这些查询通常由本地或公共 DNS 服务器处理并记录为简单条目:哪个 IP 地址在什么时候询问了哪个域名。收集足够多的这些记录,就能勾勒出用户依赖的在线服务类型,从办公工具和云存储到社交网络和流媒体平台。此前的研究利用这些痕迹来发现恶意软件或识别设备类型,而本研究提出了一个更直接的问题:是否可以仅凭反复出现的 DNS 行为来精确识别个人用户或机器?

Figure 1
Figure 1.

将日常点击转化为行为指纹

作者基于一个大型的、公开可用的 DNS 数据集展开研究,该数据由本地互联网服务提供商在三个月内收集。研究者每天将每个活动 IP 地址的 DNS 活动汇总为一个紧凑的摘要:查询总数、联系过的不同域名数,以及关键的域名所属 75 个内容类别(如“综合商业”、“软件/硬件”或“社交网络”)的分布。他们仅保留至少在 80% 天数内出现的 IP 地址,以确保每个用户有足够的历史记录,并谨慎地移除冗余或近乎空白的特征。研究团队还使用统计工具检测高度相关字段、过滤查询量的极端离群值,然后用主成分分析(PCA)压缩数据,以便在更少的维度中保留大部分有用的变异。通过一种称为 t‑SNE 的可视化技术观察清理后的数据,他们发现许多 IP 地址形成了紧密且彼此分离的簇——这是自动分类可能可行的早期迹象。

将机器学习模型置于实测

在处理好的数据集基础上,研究团队将用户识别视为一个大规模分类问题:给定一天的 DNS 统计数据,判断它属于哪一个 1,727 个 IP 地址中的哪一个。他们比较了一系列模型,从朴素贝叶斯和随机森林等经典方法,到 XGBoost 和深度神经网络等更先进的工具。每种模型都在数据的不同版本(原始、重缩放、标准化或降维后)上进行训练和验证,评估指标包括正确分类的频率,以及精确率和召回率等度量。传统模型表现尚可——随机森林达到约 73% 的准确率,XGBoost 超过 81%,并能正确区分超过 99% 的所有类别。但表现最突出的还是神经网络,尤其是一个定制的卷积神经网络(CNN),它将特征向量视为一维的日常行为“图像”。

Figure 2
Figure 2.

模型能多准确地“识别”你?

表现最佳的 CNN 在归一化数据上训练,在几乎 87% 的留出测试日中正确识别了源 IP,并成功预测了 1,727 个不同 IP 中的 1,694 个。实际上,这意味着大多数用户——或隐藏在共享 IP 背后的小群体——随着时间推移会展现出稳定且可识别的 DNS 模式。通过检查模型最依赖的特征,作者发现了两种互补策略:一些模型主要依赖非常常见的类别,如综合商业或软件服务,以捕捉广泛的行为习惯;另一些模型(如 XGBoost)则从与安全、政治或小众兴趣相关的罕见但指示性类别中获得额外能力。综合来看,这些结果表明,即使是简单的聚合统计信息——而不需要查看完整的域名列表——也能编码出足以令人惊讶地重新识别用户的结构。

前景、局限与隐私利害关系

对于执法机构和网络防御人员来说,DNS 指纹可能成为追踪惯犯、发现受感染机器或检测使用变更 IP 地址以逃避封锁的僵尸网络的有力工具。与此同时,该研究也指出了明显的限制:当公共 IP 与单一用户绑定时,DNS 指纹最为稳定,这在现代 IPv6 网络中比在当今许多用户通过 NAT 共享一个 IPv4 地址的环境下更现实。频繁切换 DNS 服务器或使用公共 Wi‑Fi 也会削弱信号。最重要的是,这项工作强调了一种普通用户难以察觉的隐私风险。由于 DNS 记录主要是隐形且被动的,行为跟踪可以在不安装 cookies 或侵入性脚本的情况下发生。作者公开发布了他们的数据集和模型,主张透明的研究是必要的,以便社会在评估基于 DNS 的指纹技术所带来的安全利益与其潜在的无声监控风险之间做出权衡,并决定应当对这种强大的在线识别形式制定哪些保护措施和政策。

引用: Morozovič, D., Konopa, M. & Fesl, J. DNS fingerprint based on user activity. Sci Rep 16, 7314 (2026). https://doi.org/10.1038/s41598-026-37631-7

关键词: DNS 指纹识别, 用户追踪, 互联网隐私, 网络安全, 机器学习