Clear Sky Science · he

טביעת אצבע DNS מבוססת פעילות משתמש

2026-02-04 · חזרה לאינדקס

מדוע ביקורי האתרים שלכם מותירים זנב מוסתר

בכל פעם שאתם גולשים ברשת, המחשב שלכם שואל בשקט סוג מיוחד של פנקס כתובות, שנקרא מערכת שמות דומיינים (DNS), כיצד להגיע לכל אתר. השאלות הללו לא נעלמות. במשך ימים ושבועות הן יוצרות דפוס לגבי אילו סוגי אתרים אתם מבקרים, מתי וכמה פעמים. המחקר הזה מראה כי דפוסים אלה מובחנים מספיק כדי לפעול כטביעת אצבע התנהגותית, המאפשרת לאלגוריתמים חזקים להבדיל בין משתמשים — גם אם כתובת ה-IP הנראית שלהם משתנה — דבר שמציף הן הזדמנויות לאבטחה והן שאלות מהותיות לגבי פרטיות.

פנקס הטלפונים של האינטרנט והרגליכם

DNS קיים כדי לתרגם כתובות אינטרנט קריאות לאדם, כמו www.google.com, לכתובות IP מספריות שבהן מחשבים משתמשים כדי לתקשר זה עם זה. רוב האנשים אינם חושבים על כך, אך כל חיפוש, שידור וידאו, בדיקת אימייל או עדכון אפליקציה מפעיל שאילתה אחת או יותר ל‑DNS. שאילתות אלה מטופלות בדרך כלל על‑ידי שרתי DNS מקומיים או ציבוריים ונרשמות כרשומות פשוטות: איזו כתובת IP ביקשה על איזה דומיין, ומתי. אוספים מספיק כאלה ותתקבל תמונה מפורטת של אילו שירותים מקוונים משתמש סומך עליהם, החל בכלים עסקיים ואחסון בענן ועד לרשתות חברתיות ופלטפורמות סטרימינג. בעוד שמחקרים קודמים השתמשו בנתוני עקבות אלה כדי לזהות תוכנות זדוניות או סוגי מכשירים, המחקר הנוכחי שואל שאלה ישירה יותר: האם הם יכולים לזהות משתמשים או מכונות בודדות רק מתוך התנהגות ה‑DNS החוזרת שלהם?

להפוך לחיצות יומיות לטביעת אצבע התנהגותית

המחברים בונים על מערך נתוני DNS גדול וזמין לציבור שנאסף מספק אינטרנט מקומי במשך שלושה חודשים. בכל יום הם מאגדים את פעילות ה‑DNS של כל כתובת IP פעילה לתמצית קומפקטית: ספירות של סך השאילתות, כמה דומיינים שונים נבדקו, ובחשוב הדבר — כיצד אותם דומיינים מתחלקים ל‑75 קטגוריות תוכן כגון "עסקים כלליים", "תוכנה / חומרה" או "רשתות חברתיות". הם שומרים רק כתובות IP שמופיעות בלפחות 80 אחוז מהימים, כדי להבטיח היסטוריה מספקת לכל משתמש, ומסירים בקפידה תכונות מיותרות או כמעט ריקות. הם גם מיישמים כלים סטטיסטיים כדי לזהות שדות בעלי קורלציה גבוהה, לסנן קיצוניים בנפח השאילתות, ולאחר מכן לדחוס את הנתונים באמצעות ניתוח רכיבים עיקריים כך שרוב השונות השימושית תשמר בממדים מצומצמים הרבה יותר. בהמחשת הנתונים המטוהרים בטכניקה שנקראת t‑SNE, הם מגלים שלרבות מכתובות ה‑IP יש אשכולות הדוקים ומופרדים היטב — סימן מוקדם לכך שסיווג אוטומטי עשוי להיות בר‑הגשמה.

בחינת מודלים של למידת מכונה

עם מערך הנתונים המעובד הזה, הצוות מטפל בזיהוי משתמשים כבעיה מסיבית של סיווג: בהתבסס על יום אחד של סטטיסטיקות DNS, להחליט לאיזו מבין 1,727 כתובות IP הוא שייך. הם משווים סט של מודלים, משיטות קלאסיות כמו נאיב בייס ויער אקראי ועד כלים מתקדמים כגון XGBoost ורשתות עצביות עמוקות. כל מודל מאומן ומאומת על גרסאות שונות של הנתונים (גולמיים, ממוקדי סקאלה, ממוינים סטנדרטית, או מוקטנים בממדים) ומוערך לפי כמה לעתים הוא מקצה נכון את הכיתה המתאימה, יחד עם מדדי דיוק וזכירה. המודלים המסורתיים מתפקדים בצורה סבירה — יערות אקראי מגיעים לכ‑73 אחוז דיוק, ו־XGBoost עולה על 81 אחוז תוך הבחנה נכונה ביותר מ‑99 אחוז מכל הכיתות. אך הביצועים הבולטים הם של הרשתות העצביות, במיוחד רשת עצבית קונבולוציונית (CNN) מותאמת שמטפלת בוקטור התכונות כבלתי־ממדי של "תמונה" יומית של התנהגות.

עד כמה מודל יכול לדעת "מי" אתה?

ה‑CNN הטוב ביותר, שאומן על נתונים מנורמלים, מזהה נכון את כתובת המקור בכמעט 87 אחוז מהימים שלא נראו באימון ומנבא בהצלחה 1,694 מתוך 1,727 כתובות IP נפרדות. במונחים מעשיים, המשמעות היא שרוב המשתמשים — או קבוצות קטנות המתחבאות מאחורי IP משותף — מציגים דפוסי DNS יציבים ומזוהים עם הזמן. בבחינת התכונות שעליהן המודלים נשענים ביותר, המחברים מוצאים שתי אסטרטגיות משלימות. חלק מהמודלים נשענים בחוזקה על קטגוריות נפוצות מאוד, כגון עסקים כלליים או שירותי תוכנה, ותופסים הרגלים רחבים. אחרים, כמו XGBoost, מרוויחים כוח נוסף מקטגוריות נדירות אך מצביעות שקשורות לאבטחה, פוליטיקה או תחומי עניין נישתיים. יחד, התוצאות הללו ממחישות שגם סטטיסטיקות מצטברות פשוטות — ללא בחינה של רשימת שמות הדומיינים המלאה — יכולות לקודד מספיק מבנה כדי לזהות מחדש משתמשים בדיוק מרשים.

הבטחה, מגבלות וסיכונים לפרטיות

לבעלי אכיפת החוק ולמגיני רשת, טביעות אצבע DNS עשויות להפוך לכלי יקר ערך למעקב אחר עבריינים חוזרים, זיהוי מכשירים שפולשו אליהם או גילוי בוטנטים שמשתמשים בכתובות IP משתנות כדי להתחמק מחסימות. בו בזמן, המחקר מדגיש מגבלות ברורות: טביעות אצבע DNS יציבות יותר כש‑IP ציבורי קשור למשתמש יחיד, מצב שהוא מציאותי יותר ברשתות IPv6 מודרניות מאשר בעולם IPv4 של היום שבו רבים משתפים כתובת אחת באמצעות NAT. החלפת שרתי DNS תכופה או שימוש ברשתות Wi‑Fi ציבוריות מחליש גם כן את האות. והחשוב מכל, העבודה מדגישה סיכון לפרטיות שקשה למשתמשים רגילים להבחין בו. מאחר שרישום DNS הוא ברובו בלתי נראה ופאסיבי, מעקב התנהגותי יכול להתרחש בלי התקנת קוקיות או סקריפטים חדורים. המחברים מפרסמים את מערך הנתונים והמודלים שלהם בגלוי, וטוענים כי מחקר שקוף נחוץ כדי שהחברה תשקול את יתרונות האבטחה של טביעת אצבע מבוססת DNS מול הפוטנציאל שלה לפיקוח שקט ותחליט אילו הגנות ומדיניות צריכות לשלוט בצורה חזקה זו של זיהוי מקוון.

ציטוט: Morozovič, D., Konopa, M. & Fesl, J. DNS fingerprint based on user activity. Sci Rep 16, 7314 (2026). https://doi.org/10.1038/s41598-026-37631-7

מילות מפתח: טביעת אצבע DNS, מעקב משתמשים, פרטיות באינטרנט, אבטחת רשת, למידת מכונה