Clear Sky Science · ja
大規模言語モデルによるニュース文面マイニングに基づく中国の高精度な地すべり事象カタログ
なぜこの地すべりマップが重要か
地すべりは毎年多数の命を奪い、住宅や道路、農地を破壊するが、発生の時期や場所といった基本的な事実は意外と分かりにくいことがある。本研究は、何年にもわたるニュース報道を読み取るようにコンピュータを教育することで、中国本土で発生した千件以上の地すべりを詳細に記したカタログを作成した。その成果は公開データセットとして提供され、警報システムの改善、安全な建設の指針作り、より賢明な防災計画の支援に役立つ。

散在する記事から全国図へ
これまで中国には地すべりの記録が断片的にしか残っていなかった。公式の公表は年ごとや省ごとの発生件数にとどまり、正確な位置や時刻が記載されることは稀だった。国際的なカタログは主に世界規模で最も大きいか致命的な事例に注目しており、中国語の局地的な報道を見落とすことが多かった。その結果、研究者は全国の地すべりの細かな実態を把握できず、斜面の危険性が最も高い場所やリスクの時間的変化を評価するのが難しかった。
コンピュータにニュースを読ませる
著者らは、中国全土のニュースを配信する大手全国ニュースサイト「China News Network」に着目した。2008年から2024年までに「地すべり」という語を含む3万3千件を超える記事を収集し、選挙や市場崩壊など比喩的に用いられた用例は除外した。次に、大量のテキストで訓練された高度な人工知能である大規模言語モデルを用いて、実際の災害報告から主要な事実を抽出した。各事象について、発生時刻、場所、誘因、死亡・負傷・行方不明者数などを特定しようとした。
事象の精査、検証、地図への配置
生のAI出力は完全ではないため、研究チームは複数の検査工程を加えた。時刻や場所の明確な情報を欠く記録は除外し、省といった広域名のみで有用な詳細がない報告も取り除いた。同一の災害を複数の記事が扱う一般的な問題には、発生時刻の近さや位置記述の類似性を比較して重複の可能性が高い記録を統合することで対処した。残った記録は専門家が目視で確認し誤りを修正した。地名記述を地図上の座標に変換するにはオンライン地図サービスと独自の規則を使って最適な照合候補を選び、疑わしいケースは再度手作業で確認した。

新しいカタログが明らかにしたこと
最終データセットには1,582件の地すべりが収められており、極めて精密な情報が付されている。約半数は時刻が分単位、あるいは時間単位まで特定され、80%以上は村レベルや道路切土・丘陵地といった特定地点で位置付けられている。記録された地すべりの多くは豪雨によって誘発され、特に中国南部で多発していた一方、地震誘発事象はチベット高原東縁付近に集中している。他の広く用いられる二つの世界地すべりデータベースと比べると、本カタログは同一期間の中国内の事象数が約2.5倍で、時間・空間の両面でより精密に位置付けられている。
ニュースをAIが読む精度はどれほどか
精度を検証するため、チームはAI抽出記録を既知の大規模災害に関する公式報告や詳細な地域地質調査と比較した。システムは発生時刻・場所や誘因といった基本的な詳細の抽出に非常に優れていたが、緊急時に変化しやすい死亡者数・負傷者数・行方不明者数の把握はやや信頼性が低かった。全体として、ニュース報道は時刻や位置に関して政府資料とよく一致しており、こうしたカタログ構築の基盤として信頼できることが確認された。
将来の安全にとっての意義
専門外の読者に向けた要点は、コンピュータが長年分のニュース報道をふるいにかけ、危険な斜面がどこで崩壊したかを明確かつ詳細に示す地図を作れるようになったということだ。この中国の地すべりカタログは、メディアにほとんど痕跡を残さない小規模事象を含め全てを網羅するわけではなく、死傷者数の扱いには注意が必要である。それでも、時間と位置の精度が高いため、警報モデルの検証、道路や集落の建設場所の判断、今後の豪雨や地震に備える行政の準備などにとって強力なツールとなる。
引用: Zhao, B., Zhang, L., Liu, Z. et al. A high-precision catalogue of landslide events in China based on news text mining with large language model. Sci Data 13, 722 (2026). https://doi.org/10.1038/s41597-026-07066-w
キーワード: 地すべりカタログ, 中国の危険, ニュース文テキストマイニング, 大規模言語モデル, 災害リスクデータ