Clear Sky Science · ar

بصمة DNS بناءً على نشاط المستخدم

· العودة إلى الفهرس

لماذا تترك زياراتك للويب أثرًا خفيًا

في كل مرة تتصفح فيها الويب، يستعلم جهازك بهدوء دفتر عناوين خاصًا يُسمى نظام أسماء النطاقات (DNS) عن كيفية الوصول إلى كل موقع. هذه الاستفسارات لا تختفي ببساطة. على مدى أيام وأسابيع تشكل نمطًا يبيّن أنواع المواقع التي تزورها ومتى وعدد مرات الزيارة. تُظهر هذه الورقة أن هذه الأنماط مميزة بما يكفي لتعمل كبصمة سلوكية، مما يمكّن خوارزميات قوية من التفريق بين المستخدمين—حتى لو تغيّر عنوان IP الظاهر—مما يفتح آفاقًا أمنية وأسئلة جدّية تتعلق بالخصوصية.

دليل الهاتف للإنترنت وعاداتك

يوجد DNS لترجمة عناوين الويب المقروءة من الإنسان، مثل www.google.com، إلى عناوين IP الرقمية التي تستخدمها الحواسيب للتواصل مع بعضها. معظم الناس لا يفكرون في ذلك، لكن كل بحث أو بث فيديو أو فحص بريد إلكتروني أو تحديث تطبيق يُطلق استعلامًا أو أكثر إلى DNS. عادةً ما تتولى خوادم DNS محلية أو عامة هذه الاستعلامات وتُسجّلها كسجلات بسيطة: أي عنوان IP استعلم عن أي نطاق ومتى. اجمع ما يكفي من هذه السجلات فتحصل على صورة مفصلة عن أنواع الخدمات عبر الإنترنت التي يعتمد عليها المستخدم، من أدوات العمل والتخزين السحابي إلى الشبكات الاجتماعية ومنصات البث. بينما استخدمت أبحاث سابقة هذه الآثار لاكتشاف البرمجيات الخبيثة أو تحديد أنواع الأجهزة، تطرح هذه الدراسة سؤالًا أكثر مباشرة: هل يمكن لتلك الأنماط تحديد مستخدمين أو أجهزة بعينها استنادًا فقط إلى سلوكهم المتكرر في DNS؟

Figure 1
Figure 1.

تحويل النقرات اليومية إلى بصمة سلوكية

يعتمد المؤلفون على مجموعة بيانات DNS كبيرة ومتاحة علنيًا جُمعت من مزود إنترنت محلي على مدى ثلاثة أشهر. كل يوم، يجمعون نشاط DNS لكل عنوان IP نشط في ملخّص مدمج: أعداد الاستعلامات الإجمالية، وعدد النطاقات المختلفة التي تم الاتصال بها، والأهم من ذلك، كيف تُصنَّف تلك النطاقات ضمن 75 فئة محتوى مثل «أعمال عامة»، «برمجيات/عتاد»، أو «شبكات اجتماعية». يحتفظون فقط بعناوين IP التي تظهر في ما لا يقل عن 80 بالمئة من الأيام، لضمان تاريخ كافٍ لكل مستخدم، ويزيلون بعناية الميزات المكررة أو شبه الفارغة. كما يطبقون أدوات إحصائية لاكتشاف الحقول المرتفعة الارتباط، وتصفيق القيم الشاذة في حجم الاستعلامات، ثم يضغطون البيانات عبر تحليل المكونات الرئيسية بحيث تُحفظ معظم التباينات المفيدة في أبعاد أقل بكثير. عند تصوير البيانات المنقّحة باستخدام تقنية تُسمى t‑SNE، يجدون أن العديد من عناوين IP تُشكّل تجمعات متقاربة ومُنفصِلة جيدًا—وهي علامة مبكرة على أن التصنيف الآلي قد يكون ممكنًا.

وضع نماذج التعلم الآلي قيد الاختبار

مع هذه المجموعة المعالجة من البيانات، يتعامل الفريق مع تحديد المستخدم كمسألة تصنيف ضخم: بالنظر إلى إحصائيات DNS ليوم واحد، تحديد أيّ من 1,727 عنوان IP ينتمي إليه. يقارنون مجموعة من النماذج، من أساليب تقليدية مثل نايف بايز وغابة عشوائية إلى أدوات أكثر تقدمًا مثل XGBoost والشبكات العصبية العميقة. يُدرّب كل نموذج ويُصادق عليه على نسخ مختلفة من البيانات (خام، معاد قياسها، موحّدة، أو مخفّضة الأبعاد) ويُقيّم بناءً على مدى توفيقه في تعيين الفئة الصحيحة، إلى جانب مقاييس الدقة والاسترجاع. قدمت النماذج التقليدية أداءً مقبولًا—فالغابات العشوائية وصلت إلى نحو 73 بالمئة دقة، وتجاوز XGBoost ثمانية وواحدين بالمئة مع تمييز أكثر من 99 بالمئة من جميع الفئات بشكل صحيح. لكن النجوم الحقيقية كانت الشبكات العصبية، خصوصًا شبكة عصبية تلافيفية مخصّصة (CNN) تعامل متجه الميزات كصورة أحادية البُعد للسلوك اليومي.

Figure 2
Figure 2.

إلى أيّ حد يمكن للنموذج أن يعرف «من أنت»؟

النموذج الأفضل من نوع CNN، المدرب على بيانات مقيّمة، يحدد عنوان IP المصدر بشكل صحيح في ما يقرب من 87 بالمئة من الأيام المحتفظ بها للاختبار ويتنبأ بنجاح بـ 1,694 من أصل 1,727 عنوان IP مميزًا. عمليًا، يعني هذا أن معظم المستخدمين—أو المجموعات الصغيرة المختبئة خلف عنوان IP مشترك—يعرضون أنماط DNS مستقرة ويمكن التعرف عليها مع مرور الوقت. من خلال فحص الميزات التي تعتمد عليها النماذج أكثر، يجد المؤلفون إستراتيجيتين تكميليتين. تميل بعض النماذج للاعتماد بشدة على فئات شائعة جدًا، مثل خدمات الأعمال العامة أو البرمجيات، لالتقاط العادات العامة. بينما تكسب أخرى، مثل XGBoost، قوة إضافية من فئات نادرة لكن دالة ترتبط بالأمن أو السياسة أو الاهتمامات المتخصصة. معًا، تُظهر هذه النتائج أن إحصاءات مجمعة بسيطة—من دون الاطلاع على القائمة الكاملة لأسماء النطاقات—يمكن أن تُشفِّر بنية كافية لإعادة تعريف المستخدمين بدرجة ملحوظة من الموثوقية.

الوعود والحدود ومخاطر الخصوصية

بالنسبة لجهات إنفاذ القانون والمدافعين عن الشبكات، يمكن أن تصبح بصمات DNS أداة قيمة لتتبع المتكرّرين، واكتشاف الأجهزة المخترَقة، أو رصد شبكات الروبوتات (botnets) التي تستخدم عناوين IP متغيرة لتفادي الحجب. في الوقت نفسه، تبرز الدراسة حدودًا واضحة: تكون بصمات DNS أكثر ثباتًا عندما يرتبط عنوان IP عام بمستخدم واحد، وهو أمر أكثر واقعية في شبكات IPv6 الحديثة منه في عالم IPv4 الحالي حيث يشترك كثير من المستخدمين في عنوان واحد عبر الترجمة الشبكية (NAT). كما يُضعف التبديل المتكرر لخوادم DNS أو استخدام الواي فاي العام قوة الإشارة. والأهم من ذلك، تؤكد الدراسة وجود خطر على الخصوصية يصعب على المستخدمين العاديين إدراكه. لأن تسجيل DNS غالبًا ما يكون غير مرئي وسلبي، يمكن أن يحدث التتبع السلوكي دون تثبيت ملفات تعريف الارتباط أو برامج نصية متطفلة. يطلق المؤلفون مجموعتهم من البيانات والنماذج علنًا، بحجة أن البحث الشفاف ضروري لكي تُوازن المجتمع فوائد الأمن لبصمات DNS مقابل إمكانيتها للمراقبة الصامتة ويُقرر أيّ الحمايات والسياسات يجب أن تحكم هذا الشكل الجديد والقوي من التعرّف عبر الإنترنت.

الاستشهاد: Morozovič, D., Konopa, M. & Fesl, J. DNS fingerprint based on user activity. Sci Rep 16, 7314 (2026). https://doi.org/10.1038/s41598-026-37631-7

الكلمات المفتاحية: بصمة DNS, تتبع المستخدم, خصوصية الإنترنت, أمن الشبكات, التعلم الآلي