Clear Sky Science · ja
大規模言語モデルと検索補強生成を用いたグローバルニュースからの災害ストーリーラインとナレッジグラフ
見出しを役立つストーリーへ
洪水、山火事、流行病などが発生すると、公式の統計や詳細な調査よりも速くニュース報道が殺到します。こうした記事の中には、何が起きたのか、誰が最も被害を受けたのか、どの対応が効果的だったのかを示す手がかりが埋もれています。本論文は、進んだAIを用いて過去10年分の世界の災害ニュースを構造化されたストーリーと因果地図に変換する新しいオープンデータセットについて説明します。これにより、研究者、計画担当者、緊急サービスが災害の展開やリスクのつながりをよりよく理解できるようになります。

生のニュースから構造化された事象ストーリーへ
著者らはまず、世界中の主要な事象を多数収録した信頼できるグローバル災害カタログであるEM-DATを出発点とします。2014年から2024年までの各事象について、巨大な多言語ニュースアーカイブであるEurope Media Monitorを検索し、英語報道に焦点を当てます。最新のAIツールを使って何百万もの記事をふるいにかけ、特定の洪水、地震、熱波などを実際に扱っている記事を見つけ出します。検索で得られた記事のごく一部だけがこのフィルターを通過しますが、通過した記事は各事象について豊かで焦点の定まった情報を提供します。
AIが物語と因果マップをどう作るか
関連する記事が収集されると、大規模言語モデルに各災害の構造化された事実シート、いわゆる「ストーリーライン」を書かせます。これらの記述は明確なテンプレートに沿っており、何がどこで起きたか、どの程度深刻だったか、主要な推進要因、被曝した人や物、主要な影響、連鎖的なリスクの可能性、および対応や復旧措置を記します。次の段階では、同種のモデルがそのストーリーラインを読み、「豪雨は急流を引き起こす」や「早期警戒システムは死傷者を防ぐ」といった三項(トリプル)形式の単純な因果文を抽出します。これらの文はその後ナレッジグラフ—危険、推進要因、影響、対応をつなぐネットワーク状の図—として組み上げられます。
新しいデータセットの内容
生成されたデータセットは、地震や暴風から干ばつや流行病まで、175か国・26種類のハザードにわたる3,158件の災害事象をカバーします。単一のCSVファイルの各行には、EM-DATからの標準情報とともにAIが作成したストーリーラインと抽出された因果トリプルが含まれます。オンラインのダッシュボードでは、国、種類、事象コード別に事象を参照し、記述とそれに対応するグラフの両方を検査できます。システムはこの10年間のEM-DAT事象の約半分しか捉えていませんが、報告された経済的損失の約80%を含んでおり、最も被害の大きい災害に対する強いメディア注目が反映されています。

現場の専門家による品質検証
災害リスク管理は影響が大きい領域であるため、チームはAI生成のグラフがどれほど信頼できるかを慎重に評価しました。6人の専門家がランダムに抽出された1,000件の因果文を調査し、それぞれが原典の本文によって支持されているかを判定しました。全体として、ほぼ3分の2の文が多数決で正しいと評価され、中程度の専門家間一致が見られました。別のワークショップでは、欧州の民間防護機関の約30名の災害実務家が34件の完全なグラフをレビューしました。評価の多くは「完全に正しい」または「ほぼ正しい」に分類され、特に洪水や嵐のように文書化が進んだ事象で高評価でした。小規模なオンライン調査では、参加者は概ね記述を正確と見なし、グラフは複雑な状況を把握するのにやや有用であると考えていました。
今後の災害にとっての意義
一般市民や意思決定者にとっての主なメッセージは、このプロジェクトが大量の災害ニュースを理解可能にするうえでAIが役立つことを示している点です。散発する報道を一貫したストーリーと何が何を引き起こすかの簡潔な地図に変えることで、データセットはリスク評価、シナリオ計画、早期警戒設計を支援します。著者らは、自分たちのグラフが現実の完全なモデルではなく、ニュースソースや英語報道への偏りが重要なギャップを残すことを強調しています。それでも、すべてのデータ、コード、プロンプトが公開されているため、他者が手法を改良、拡張、適用することが可能です。長期的には、このようなツールが次の危機発生時に社会がより速く賢く対応する助けになるかもしれません。
引用: Ronco, M., Bandelli, L., Bertolini, L. et al. Disaster Storylines and Knowledge Graphs from Global News with Large Language Models and Retrieval-Augmented Generation. Sci Data 13, 689 (2026). https://doi.org/10.1038/s41597-026-07036-2
キーワード: 災害リスク, ナレッジグラフ, ニュースデータ, 大規模言語モデル, 早期警戒