Clear Sky Science · zh
利用大型语言模型与检索增强生成,从全球新闻构建灾害情节与知识图谱
把头条变成有用的故事
当洪水、野火或流行病发生时,新闻报道往往比官方统计或详尽研究更快涌现。这些文章中隐含着关于事件经过、受灾最重的人群以及哪些措施有效的线索。本文介绍了一个新的开放数据集,利用先进的人工智能将十年全球灾害新闻转化为结构化的叙事和因果关系图,帮助研究人员、规划者和应急服务更好地理解灾害如何展开以及风险如何相互关联。

从原始新闻到结构化事件故事
作者以一个可信的全球灾害目录 EM-DAT 为起点,该目录列出了全球数千起重大事件。对于 2014 至 2024 年间的每起事件,他们在一个大型多语种新闻存档(Europe Media Monitor)中检索,着重于英文报道。借助现代人工智能工具,他们在数百万篇文章中筛选出真正讨论特定洪水、地震、热浪或其他危害的稿件。被检索出的文章中只有一小部分通过了这道筛选,但那些通过的文章为每起事件提供了丰富且聚焦的信息。
人工智能如何构建叙事与因果图
在收集到相关报道后,使用大型语言模型为每起灾害撰写结构化的事实页,即“情节”。这些叙事遵循明确的模板:发生了什么、何处发生、严重程度、主要驱动因素、暴露的群体与对象、关键影响、可能的连锁风险,以及响应与恢复措施。在第二步中,同类型的模型阅读情节并抽取出简单的因果陈述,通常以三元组形式出现,例如“强降雨导致山洪”或“早期预警系统可防止伤亡”。这些陈述随后被组装成知识图谱——将危害、驱动因素、影响与应对连接起来的网络状图。
新数据集包含的内容
生成的数据集覆盖了 175 个国家的 3,158 起灾害事件,涉及 26 类危害,从地震与风暴到干旱与流行病。单个 CSV 文件的每一行包含来自 EM-DAT 的标准信息,以及 AI 撰写的情节和提取的因果三元组。在线仪表板允许用户按国家、类型和事件代码浏览事件,并查看叙事及其对应的图谱。尽管该系统仅捕获了十年间约一半的 EM-DAT 事件,但它涵盖了约 80% 的报告经济损失,反映出媒体对破坏性最大的灾害给予了更密集的关注。

与领域专家共同检验质量
由于灾害风险管理属于高风险领域,研究团队仔细测试了其 AI 生成图谱的可信度。六位专家审查了 1,000 条随机抽样的因果陈述,并评估每条陈述是否由源文本所支持。总体上,近三分之二的陈述经多数投票被评为正确,专家之间达到了中等程度的一致性。在另一场研讨会上,约 30 名来自欧洲民事防护机构的灾害专业人士审阅了 34 张完整图谱。大多数评分落在“完全正确”或“基本正确”之间,尤其是对于如洪水与风暴等资料更完善的事件。一项小型在线调查发现,参与者普遍认为这些叙事准确,图谱在把握复杂情形方面具有一定实用性。
这对未来灾害意味着什么
对于公众与决策者而言,核心信息是该项目展示了人工智能如何帮助解读海量灾害新闻。通过将分散的报道转化为一致的故事与简明的因果图谱,数据集有助于更好的风险评估、情景规划与早期预警设计。作者强调,他们的图谱并非现实的完美或完整模型,新闻来源与以英语为主的偏向留下了重要空白。尽管如此,鉴于所有数据、代码与提示均公开共享,其他人可以对方法进行改进、扩展与适配。长期来看,此类工具可能帮助社会在下一次危机来临时更快、更智能地响应。
引用: Ronco, M., Bandelli, L., Bertolini, L. et al. Disaster Storylines and Knowledge Graphs from Global News with Large Language Models and Retrieval-Augmented Generation. Sci Data 13, 689 (2026). https://doi.org/10.1038/s41597-026-07036-2
关键词: 灾害风险, 知识图谱, 新闻数据, 大型语言模型, 预警