Clear Sky Science · he

אתרוג'יאוגרפיה של משתמשים חברתיים המבוססת על K-medoids ורשת תשומת לב גרפית עם גרעין גאוסי

· חזרה לאינדקס

מדוע הציוצים שלכם יכולים לחשוף היכן אתם גרים

כל יום מיליוני אנשים מפרסמים ברשתות החברתיות מבלי לשתף קואורדינטות GPS. ועדיין, הפוסטים הללו משאירים רמזים לגבי היכן המשתמשים גרים, עובדים ונוסעים. היכולת להסיק מיקום מתוך מסלול ציבורי זה חשובה לכל דבר, מתגובת חירום ומעקב מחלות ועד המלצות מקומיות ושירותים ממוקדי מטרה. המאמר הזה מציג שיטה חדשה, בשם KMKGAT, שמשתמשת גם בתוכן שמופיע בפוסטים וגם בקשרים החברתיים המקוונים כדי לאמוד היכן המשתמשים נמצאים, בדיוק גבוה יותר מאשר גישות מוקדמות.

מצ'אטים מקוונים למקומות בעולם האמיתי

כשמשתמשים כותבים ציוצים או מיקרובלוגים, הם עשויים להזכיר שמות מקומות, להשתמש סלנג מקומי או לתקשר עם חברים בקרבה. חברות כמו טוויטר (כיום X) יודעות את כתובת האינטרנט של המשתמש, אך חוקרים וספקי שירות חיצוניים לרוב אינם ניגשים לכך. במקום זאת הם נאלצים לעבוד עם מידע ציבורי: הטקסט עצמו, פרופילי משתמשים ומי מדבר עם מי. שיטות מוקדמות נפלו לשלוש משפחות. שיטות מבוססות-תוכן חיפשו מילים והאשטאגים כדי לנחש מיקום. שיטות מבוססות-רשת נשענו על העובדה שאנשים נוטים לתקשר עם משתמשים בקרבה. משפחה שלישית, חזקה יותר, שילבה את שתי ההשקפות, אך עדיין נשארו לה נקודות עיוור—במיוחד עבור אנשים באזורים דלילי אוכלוסייה ועבור משתמשים שקשרים מקוונים שלהם מתפרשים על מרחקים גדולים.

קיבוץ גאוגרפי חכם יותר עם מרכזים של משתמשים אמיתיים

בעיה מרכזית היא כיצד להפוך את הגלובוס הרציף לערכה של אזורים שמחשב יכול ללמוד לחזות. מערכות רבות חותכות את המפה לרשת קבועה. זה עובד היטב בערים אך נכשל באזורים כפריים, שבהם תאים ענקיים מכסים מאות קילומטרים. השיטה החדשה מחליפה גרידים קשיחים בקיבוץ k-medoids, שיטה לקיבוץ משתמשים כך שכל אזור מרכזו על משתמש ממשי במקום על נקודה מלאכותית. זה הופך את האזורים לצפופים פחות ופחות רגישים לחריגים, במיוחד במקומות שבהם המשתמשים דלילים. במבחנים על שלוש מערכות נתונים גדולות מטוויטר המכסות את ארצות הברית והעולם, חלוקה אדפטיבית זו הקטינה שגיאות טיפוסיות בהשוואה לסכמות מבוססות-גריד וסיפקה "אזורי בית" ריאליסטיים יותר למשתמשים.

Figure 1
Figure 1.

לאפשר לרשת להתמקד במשתמשים קרובים ודומים

החידוש השני נמצא באופן שבו המודל לומד מהגרף החברתי. "רשתות תשומת לב גרפיות" מודרניות כבר שוקלות את שכניו של משתמש באופן שונה, בהתבסס על כמה הדמיון בין ייצוגי התכונות שלהם. אבל הדמיון לבדו עלול להטעות: חשבון בניו יורק ואחר בלונדון עשויים להשתמש בשפה דומה אך להיות מרוחקים גאוגרפית. KMKGAT מעשיר את מנגנון התשומת לב עם גרעין גאוסי, פילטר מתמטי שמעדיף שכנים שתכונותיהם הלמידיות קרובות למשתמש היעד ומדכא את השפעתם של שכנים מרוחקים. מספר גרעינים כאלה, המשולבים כמו תערובת של עדשות, מאפשרים למודל לתפוס מקומיות בקנה מידה שונה. זה מכבד את העיקרון הפשוט אך החזק שאינטראקציות מקוונות לעתים קרובות החזקות ביותר הן בין אנשים שהם גם קרובים פיזית.

Figure 2
Figure 2.

תכונות טקסט קלות שמשמרות רמזי מיקום

במקום להסתמך על מודלים כבדים של שפה עמוקה, שלפעמים מתמודדים קשה עם הסגנון הרועש והמלא בסלנג של ציוצים, המחברים משתמשים בטכניקה קלאסית הנקראת TF–IDF כדי להפוך את אוסף הפוסטים של כל משתמש לשק של מילות מפתח משוקללות. מילים שכיחות כמו "the" או "lol" מקבלות משקל קטן, בעוד שמונחים נדירים וייחודיים לאזור עולים לראש. מאפייני הטקסט האלה מצורפים אז לכל משתמש בגרף החברתי ומועברים דרך רשת התשומת לב המשופרת. מעניין שהתוצאות הטובות ביותר הושגו כאשר רוב תכונות הטקסט הועפו באקראי במהלך האימון, מה שמרמז שרק שבריר מהמילים באמת עוזר בזיהוי מיקום והשאר מוסיף בעיקר רעש.

עוקפים את מצב-האמנות בקנה מידה רחב

כדי לשפוט ביצועים, החוקרים מדדו כמה קילומטרים היה מרכז האזור החזוי מרוחק מקואורדינטות ידועות של כל משתמש, ומהו האחוז מהמשתמשים שמומקו בתוך 161 ק"מ (100 מייל) מהמיקום האמיתי שלהם. לאורך שלוש מערכות נתוני טוויטר תקניות, KMKGAT עקב או עלה על מערכות חזקות קיימות, ושיפר את דיוק ה"בתוך־161־קילומטרים" בכמה נקודות אחוז — שיפור משמעותי ברמת הבשלות הזו. היתרונות היו הבולטים ביותר ברשתות קטנות ובינוניות, בעוד שבגרף עולמי ענק השיטה הייתה מוגבלת על ידי הצורך לדגום רק שכנים מיידיים במהלך האימון.

מה זה אומר במונחים יום-יומיים

ללא מומחיות טכנית, המסקנה היא שניתן כיום להעריך יותר ויותר היכן משתמשי רשתות חברתיות נמצאים, גם אם הם מעולם לא שיתפו תווית מיקום. על ידי קיבוץ משתמשים לאזורים ריאליסטיים המבוססים על חשבונות אמיתיים, ובלימוד המודל להסתמך בעיקר על שכנים קרובים ודומים ברשת החברתית, KMKGAT מצמצם את ההיקף של המקום שבו מישהו סביר שגר או מפרסם ממנו. זה יכול לסייע למגיבים בחירום למצוא אנשים בעת אסונות, לשפר חיפוש והמלצות מקומיות, ולתמוך במחקרים על כיצד מידע מתפשט בין מקומות. יחד עם זאת, הדבר מדגיש כמה האינטראקציות היומיומיות שלנו ברשת יכולות לחשוף על חיינו שאינם מקוונים, ומחזק את החשיבות של שימוש זהיר בנתונים והגנות פרטיות.

ציטוט: Jiao, A., Qiao, Y., Li, P. et al. Social user geolocation based on K-medoids and Gaussian Kernel graph attention network. Sci Rep 16, 5115 (2026). https://doi.org/10.1038/s41598-026-35532-3

מילות מפתח: גאולוקציה ברשתות חברתיות, מיקום משתמש בטוויטר, רשתות עצביות גרפיות, שירותים מבוססי מיקום, פרטיות מקוונת