Clear Sky Science · ja
K-メドイドとガウシアンカーネルを用いたグラフアテンションネットワークに基づくソーシャルユーザーの位置推定
なぜあなたのツイートが居住地を明かしてしまうのか
毎日、何百万もの人々がGPS座標を共有せずにソーシャルメディアに投稿しています。それでも、その投稿はユーザーの居住地、職場、移動先についての手がかりを残します。こうした公開情報から位置を推定できることは、緊急対応や疾病追跡から地域のおすすめやターゲティングサービスまで、多くの用途で重要です。本論文はKMKGATと呼ばれる新しい手法を紹介します。これは、人々の発言内容とオンライン上のつながりの両方を利用して、従来の手法よりも正確に居場所を推定します。
オンラインの話題から実世界の場所へ
ユーザーがツイートやマイクロブログを書くとき、地名を挙げたり、地域特有のスラングを使ったり、近くの友人とやり取りしたりします。Twitter(現在のX)のような企業はユーザーのインターネット接続情報を知ることがありますが、外部の研究者やサービス提供者は通常それを持ちません。代わりに扱えるのは公開情報、つまり本文、ユーザープロフィール、誰が誰と話しているかといったデータです。従来の手法は大きく三つに分かれていました。コンテンツのみの手法は単語やハッシュタグを掘って位置を推定します。ネットワークのみの手法は人々が近隣のユーザーと交流する傾向に依拠します。三つ目は両者を組み合わせたより強力な系ですが、依然として盲点があり、とくに人口希薄な地域やオンライン接続が広域にまたがるユーザーでは課題が残りました。
実在ユーザーを中心にした賢い地理的グルーピング
重要な課題は、連続的な地球上の位置をコンピュータが予測できる領域の集合に変換する方法です。多くのシステムは地図を固定格子に分割します。これは都市部では比較的うまく働きますが、農村部では数百キロメートルに及ぶ大きなセルになってしまい失敗します。本手法は剛直な格子をk-メドイドクラスタリングに置き換えます。これは各領域の中心を人工的な点ではなく実際のユーザーに設定するグルーピング方法です。結果として領域はよりコンパクトになり、特にユーザーが希薄な場所で外れ値への感度が低くなります。米国と世界をカバーする三つの大規模なTwitterデータセットでの検証では、この適応的な分割により格子ベースの方式と比べて典型的な誤差が減少し、ユーザーの「ホーム領域」をより現実的に表現できました。

近くて似たユーザーにネットワークの焦点を合わせる
第二の革新はモデルがソーシャルグラフから学習する方法にあります。現代の「グラフアテンションネットワーク」は既に、ユーザーの近隣ノードを特徴表現の類似度に基づいて異なる重み付けで扱います。しかし類似性だけでは誤解を招くことがあります。ニューヨークのアカウントとロンドンのアカウントが似た言語を使っていても、地理的には大きく離れているかもしれません。KMKGATはアテンションにガウシアンカーネルを付加します。これは学習された特徴が目標ユーザーに近い近隣を優先し、遠いものの影響を減衰させる数学的フィルタです。複数のカーネルをレンズの混合のように組み合わせることで、異なるスケールの局所性を捉えられます。これは、オンラインでの交流が実際には物理的に近い人々の間で強くなるという単純だが強力な原則を尊重するものです。

それでも位置ヒントを含む軽量なテキスト特徴
ノイズが多くスラングを多用するツイートの性質は重いディープ言語モデルが苦戦することを意味します。著者らは代わりにクラシックな手法であるTF–IDFを使い、各ユーザーの投稿群を重み付きキーワードのバッグに変換します。「the」や「lol」のような一般的な語は低い重みになり、地域固有のまれな語が上位に来ます。こうしたテキスト特徴は各ユーザーに付与され、拡張アテンションネットワークに渡されます。興味深いことに、学習時に多くのテキスト特徴をランダムにドロップしたときに最良の結果が出ました。これは位置推定に寄与する語は一部に限られ、残りは主にノイズを加えていることを示唆します。
スケールで最先端を上回る
性能評価では、予測された領域の中心が各ユーザーの既知座標から何キロ離れているか、そしてユーザーの何パーセントが実際の位置から161 km(100マイル)以内に配置されたかを調べました。三つのベンチマークTwitterデータセット全体で、KMKGATは一貫して既存の強力なシステムに匹敵するか上回り、161 km以内の精度を数ポイント向上させました——このレベルでは意味のある改善です。利点は小〜中規模ネットワークで最も明瞭で、巨大なグローバルグラフでは学習時に直接の近隣のみをサンプリングする制約により手法の影響が制限されました。
日常的な意味合い
専門家でない人向けの要点は、ユーザーが位置タグを共有しなくても、ソーシャルメディア上のユーザーの居場所を推定することがますます現実的になっているということです。実在アカウントに基づいてユーザーを現実的な領域にグループ化し、ソーシャルネットワーク内では主に近くて似た近隣を重視するようモデルを学習させることで、KMKGATは誰がどこに住んでいる、あるいはどこから投稿しているかの見当を狭めます。これは災害時に人を見つける手助け、地域検索や推薦の改善、情報が地域間でどのように広がるかの研究支援に役立ちます。同時に、日常的なオンラインでのやり取りが私たちのオフライン生活についてどれほど多くを明らかにし得るかを浮き彫りにし、データの慎重な利用とプライバシー保護の重要性を強調します。
引用: Jiao, A., Qiao, Y., Li, P. et al. Social user geolocation based on K-medoids and Gaussian Kernel graph attention network. Sci Rep 16, 5115 (2026). https://doi.org/10.1038/s41598-026-35532-3
キーワード: ソーシャルメディアの位置推定, Twitterユーザーの位置, グラフニューラルネットワーク, 位置情報サービス, オンラインプライバシー