Clear Sky Science · fr

Récits de catastrophes et graphes de connaissance à partir des actualités mondiales avec grands modèles de langage et génération augmentée par récupération

· Retour à l’index

Transformer les gros titres en récits utiles

Lorsqu’une inondation, un incendie de forêt ou une épidémie survient, les dépêches arrivent plus vite que les statistiques officielles ou les études détaillées. Cachés dans ces articles se trouvent des indices sur ce qui s’est passé, qui a été le plus touché et quelles actions ont été efficaces. Cet article décrit un nouveau jeu de données ouvert qui utilise l’IA avancée pour transformer une décennie d’actualités mondiales sur les catastrophes en récits structurés et en cartes de causes et effets, aidant les chercheurs, les planificateurs et les services d’urgence à mieux comprendre comment les catastrophes se déroulent et comment les risques sont reliés.

Figure 1
Figure 1.

Des actualités brutes aux récits d’événements structurés

Les auteurs partent d’un catalogue mondial des catastrophes fiable appelé EM-DAT, qui répertorie des milliers d’événements majeurs dans le monde. Pour chaque événement entre 2014 et 2024, ils interrogent une vaste archive d’actualités multilingue, le Europe Media Monitor, en se concentrant sur la couverture en anglais. À l’aide d’outils d’IA modernes, ils passent au crible des millions d’articles pour trouver ceux qui traitent réellement d’une inondation, d’un séisme, d’une canicule ou d’un autre aléa spécifique. Seule une petite fraction des articles récupérés survit à ce filtrage, mais ceux qui restent fournissent des informations riches et ciblées sur chaque événement.

Comment l’IA construit des récits et des cartes de causes à effets

Une fois les articles pertinents rassemblés, un grand modèle de langage est invité à rédiger une fiche factuelle structurée, ou « storyline », pour chaque catastrophe. Ces récits suivent un modèle clair : ce qui s’est passé et où, la gravité, les principaux facteurs, qui et quoi était exposé, les impacts clés, les risques secondaires possibles, ainsi que les mesures de réponse et de récupération. Dans une seconde étape, le même type de modèle lit la storyline et extrait des énoncés simples de cause à effet sous forme de triplets tels que « fortes pluies causent des crues éclair » ou « les systèmes d’alerte précoce préviennent des victimes ». Ces énoncés sont ensuite assemblés en graphes de connaissance — des diagrammes en réseau qui relient aléas, facteurs, impacts et réponses.

Ce que contient le nouveau jeu de données

Le jeu de données obtenu couvre 3 158 événements de catastrophe répartis dans 175 pays et 26 types d’aléas, des séismes et tempêtes aux sécheresses et épidémies. Chaque ligne d’un fichier CSV unique contient les informations standard d’EM-DAT ainsi que la storyline rédigée par l’IA et les triplets cause-effet extraits. Un tableau de bord en ligne permet aux utilisateurs de parcourir les événements par pays, type et code d’événement, puis d’inspecter à la fois le récit et son graphe correspondant. Bien que le système ne capture qu’environ la moitié des événements EM-DAT sur la décennie, il inclut près de 80 % des pertes économiques rapportées, reflétant l’attention médiatique intense portée aux catastrophes les plus dommageables.

Figure 2
Figure 2.

Évaluer la qualité avec des experts de terrain

Étant donné que la gestion du risque de catastrophe est un domaine à forts enjeux, l’équipe a testé soigneusement la fiabilité de ses graphes générés par l’IA. Six experts ont examiné 1 000 énoncés cause-effet échantillonnés aléatoirement et ont jugé si chacun d’eux était étayé par le texte source. Globalement, presque deux tiers des énoncés ont été jugés corrects par un vote majoritaire, avec un accord modéré entre les experts. Lors d’un atelier séparé, environ 30 professionnels de la protection civile européenne ont passé en revue 34 graphes complets. La plupart des évaluations entraient dans « entièrement correct » ou « majoritairement correct », en particulier pour des événements mieux documentés comme les inondations et les tempêtes. Une petite enquête en ligne a montré que les participants trouvaient généralement les récits précis et les graphes assez utiles pour saisir des situations complexes.

Pourquoi cela importe pour les futures catastrophes

Pour le grand public et les décideurs, le message principal est que ce projet montre comment l’IA peut aider à donner du sens à des flux d’actualités sur les catastrophes souvent accablants. En transformant des rapports épars en récits cohérents et en cartes simples de ce qui mène à quoi, le jeu de données soutient de meilleures évaluations des risques, la planification de scénarios et la conception des systèmes d’alerte précoce. Les auteurs soulignent que leurs graphes ne sont pas des modèles parfaits ou complets de la réalité, et que les sources d’information et le biais lié à l’anglais laissent des lacunes importantes. Néanmoins, comme toutes les données, le code et les instructions sont partagés ouvertement, d’autres peuvent affiner, étendre et adapter l’approche. À long terme, de tels outils pourraient aider les sociétés à répondre plus rapidement et plus intelligemment lorsque la prochaine crise surviendra.

Citation: Ronco, M., Bandelli, L., Bertolini, L. et al. Disaster Storylines and Knowledge Graphs from Global News with Large Language Models and Retrieval-Augmented Generation. Sci Data 13, 689 (2026). https://doi.org/10.1038/s41597-026-07036-2

Mots-clés: risque de catastrophe, graphes de connaissance, données d'actualité, grands modèles de langage, alerte précoce