Clear Sky Science · ar
تحديد الموقع الجغرافي لمستخدمي الشبكات الاجتماعية اعتمادًا على K-medoids وشبكة انتباه رسومية بنواة غاوسية
لماذا تغريداتك قد تكشف مكان سكنك
يوميًا، ينشر ملايين الأشخاص على وسائل التواصل الاجتماعي من دون مشاركة إحداثيات GPS. ومع ذلك تترك تلك المنشورات آثارًا تكشف عن أماكن سكن المستخدمين وعملهم وأسفارهم. القدرة على استنتاج الموقع من هذا الأثر العام مهمة لأشياء مثل الاستجابة للطوارئ وتتبع الأمراض والتوصيات المحلية والخدمات المستهدفة. تقدم هذه الورقة أسلوبًا جديدًا يُسمى KMKGAT، يستخدم كلًا من ما يقوله الناس وكيفية ارتباطهم عبر الإنترنت لتقدير مكانهم بدقة أكبر من الأساليب السابقة.
من الثرثرة الإلكترونية إلى الأماكن الحقيقية
عند كتابة المستخدمين تغريدات أو تدوينات قصيرة، قد يذكرون أسماء أماكن، يستخدمون لهجات محلية، أو يتواصلون مع أصدقاء قريبين جغرافيًا. شركات مثل تويتر (الآن X) تعرف عنوان الإنترنت الخاص بالمستخدم، لكن الباحثين ومزودي الخدمة الخارجيين عادة لا يملكون هذه المعلومة. بدلاً من ذلك، يجب عليهم العمل بالمعلومات العامة: النص نفسه، ملفات تعريف المستخدمين، ومن يتحدث مع من. طرائق سابقة انقسمت إلى ثلاث مدارس. طرائق معتمدة على المحتوى فقط تستخرج كلمات ووسوم للتنبؤ بالمواقع. وطرائق معتمدة على الشبكة فقط اعتمدت على حقيقة أن الناس يتفاعلُون غالبًا مع مستخدمين قريبين. والأسرة الثالثة والأقوى جمعت كلا الوجهتين، لكنها بقيت تعاني نقاط عمياء — خاصة للأشخاص في مناطق منخفضة الكثافة السكانية وللمستخدمين الذين تمتد اتصالاتهم عبر مسافات بعيدة.
تجميع جغرافي أذكى بمراكز مستخدمين حقيقية
المشكلة الأساسية هي كيفية تحويل الكرة الأرضية المستمرة إلى مجموعة مناطق يمكن للكمبيوتر تعلم التنبؤ بها. كثير من الأنظمة تقطع الخريطة إلى شبكة ثابتة. هذا يعمل جيدًا في المدن لكنه يفشل في المناطق الريفية، حيث تغطي الخلايا الضخمة مئات الكيلومترات. يستبدل الأسلوب الجديد الشبكات الصارمة بتجميع k-medoids، وهي طريقة لتجميع المستخدمين بحيث يكون كل إقليم مركزه على مستخدم حقيقي بدلًا من نقطة مصطنعة. هذا يجعل المناطق مدمجة وأقل حساسية للقيم الشاذة، لا سيما حيث قلة المستخدمين. في اختبارات على ثلاث مجموعات بيانات كبيرة من تويتر تغطي الولايات المتحدة والعالم، خفض هذا التقسيم التكيفي الأخطاء النموذجية مقارنةً بالمخططات الشبكية وقدم «مناطق منزلية» أكثر واقعية للمستخدمين.

السماح للشبكة بالتركيز على المستخدمين المتشابهين والقريبين
الابتكار الثاني يكمن في كيفية تعلم النموذج من الرسم الاجتماعي. شبكات «الانتباه الرسومي» الحديثة توازن بالفعل تأثير جيران المستخدمين بشكل مختلف، اعتمادًا على مدى تشابه تمثيلاتهم المميزة. لكن التشابه وحده قد يكون مضللًا: حساب في نيويورك وآخر في لندن قد يستخدمان لغة متشابهة مع أنهما متباعدان جغرافيًا. يعزز KMKGAT الانتباه بنواة غاوسية، مرشح رياضي يفضّل الجيران الذين تكون سماتهم المتعلمة قريبة من المستخدم الهدف ويقلل تأثير البعيدين. عدة نوى كهذه، مجتمعة كخلطة من العدسات، تتيح للنموذج التقاط المحلية بمقاييس مختلفة. هذا يحترم المبدأ البسيط لكن القوي أن التفاعلات عبر الإنترنت غالبًا ما تكون أقوى بين الأشخاص الأقرب جغرافيًا.

مزايا نصية خفيفة الوزن لكنها تحمل إشارات مكانية
بدلاً من الاعتماد على نماذج لغوية عميقة وثقيلة، التي قد تواجه صعوبات مع الأسلوب الصاخب والمملوء بالعامية في التغريدات، يستخدم المؤلفون تقنية كلاسيكية تُسمى TF–IDF لتحويل مجموعة منشورات كل مستخدم إلى حقيبة من الكلمات المفتاحية الموزونة. الكلمات الشائعة مثل «the» أو «lol» تحصل على وزن قليل، بينما تصعد المصطلحات النادرة والمحددة إقليميًا. تُلحق هذه المزايا النصية بكل مستخدم في الرسم الاجتماعي وتمر عبر شبكة الانتباه المحسنة. ومن المثير للاهتمام أن أفضل النتائج تحققت عندما تم إسقاط معظم الميزات النصية عشوائيًا أثناء التدريب، ما يشير إلى أن جزءًا صغيرًا فقط من الكلمات يساعد فعلًا في تحديد الموقع بينما تضيف الباقي ضجيجًا.
تفوق على أحدث الأساليب على نطاق واسع
لقياس الأداء، سأل الباحثون عن المسافة بالكيلومترات بين مركز المنطقة المتنبأ بها وإحداثيات كل مستخدم المعروفة، وعن نسبة المستخدمين الموضوعة ضمن 161 كم (100 ميل) من موقعهم الحقيقي. عبر ثلاث مجموعات مرجعية من تويتر، طابق KMKGAT أو تفوق باستمرار على أنظمة قوية قائمة، محسنًا دقة ضمن 161 كيلومترًا بعدة نقاط مئوية — مكسب ذا دلالة على هذا المستوى الناضج. كانت الفوائد أوضح في الشبكات الصغيرة والمتوسطة، بينما في رسم ضخم عالميًا قُيد الأسلوب بوجوب أخذ عيّنة من الجيران المباشرين فقط أثناء التدريب.
ما معنى هذا بمصطلحات يومية
لغير المتخصصين، الخلاصة أن تقدير مكان مستخدمي وسائل التواصل أصبح أكثر جدوى، حتى لو لم يشاركوا علامة موقع. من خلال تجميع المستخدمين إلى مناطق واقعية اعتمادًا على حسابات فعلية، وتعليم النموذج أن يثق في الغالب بالجيران المتشابهين والقريبين في الشبكة الاجتماعية، يضيق KMKGAT نطاق المكان الذي من المرجح أن يعيش أو ينشر منه شخص ما. هذا يمكن أن يساعد المستجيبين في العثور على الناس أثناء الكوارث، ويحسن البحث والتوصية المحلية، ويدعم دراسات كيفية انتشار المعلومات عبر الأماكن. وفي الوقت نفسه، يبرز مقدار ما يمكن أن تكشفه تفاعلاتنا العادية عبر الإنترنت عن حياتنا خارجها، مما يؤكد أهمية الاستخدام المدروس للبيانات وحماية الخصوصية.
الاستشهاد: Jiao, A., Qiao, Y., Li, P. et al. Social user geolocation based on K-medoids and Gaussian Kernel graph attention network. Sci Rep 16, 5115 (2026). https://doi.org/10.1038/s41598-026-35532-3
الكلمات المفتاحية: تحديد موقع وسائل التواصل الاجتماعي, موقع مستخدم تويتر, الشبكات العصبية الرسومية, خدمات قائمة على الموقع, الخصوصية عبر الإنترنت