Clear Sky Science · sv
Katastrofberättelser och kunskapsgrafer från globala nyheter med stora språkmodeller och retrieval-augmented generation
Förvandla rubriker till hjälpsamma berättelser
När översvämning, skogsbrand eller epidemi inträffar strömmar nyhetsrapporteringen in snabbare än officiell statistik eller detaljerade studier. Begravda i dessa artiklar finns ledtrådar om vad som hänt, vilka som drabbades hårdast och vilka åtgärder som hjälpte. Denna artikel beskriver en ny öppen datamängd som använder avancerad AI för att omvandla ett decennium av global katastrofnyheter till strukturerade berättelser och kartor över orsak-och-verkan, vilket hjälper forskare, planerare och räddningstjänster att bättre förstå hur katastrofer utvecklas och hur risker hänger ihop.

Från råa nyheter till strukturerade händelseberättelser
Författarna utgår från en betrodd global katastrofkatalog kallad EM-DAT, som listar tusentals större händelser världen över. För varje händelse mellan 2014 och 2024 söker de i ett stort flerspråkigt nyhetsarkiv, Europe Media Monitor, med fokus på engelskspråkig bevakning. Med moderna AI-verktyg sållar de igenom miljontals artiklar för att hitta dem som verkligen handlar om en specifik översvämning, jordbävning, värmebölja eller annan fara. Endast en liten andel av de hämtade artiklarna klarar detta filter, men de som gör det bidrar med rik, fokuserad information om varje händelse.
Hur AI bygger narrativ och orsak-och-verkan-kartor
När de relevanta artiklarna samlats in får en stor språkmodell i uppdrag att skriva en strukturerad faktablad, eller ”storyline”, för varje katastrof. Dessa berättelser följer en tydlig mall: vad som hände och var, hur allvarligt det var, huvuddrivkrafterna, vem och vad som var exponerat, de viktigaste effekterna, möjliga följdrisker samt åtgärder för respons och återhämtning. I ett andra steg läser samma typ av modell igenom storylinen och plockar ut enkla orsak-och-verkan-uttalanden i form av tripplar, till exempel ”kraftigt regn orsakar snabba översvämningar” eller ”tidiga varningssystem förhindrar dödsfall”. Dessa uttalanden sätts sedan ihop till kunskapsgrafer — nätverksliknande diagram som kopplar samman faror, drivkrafter, effekter och svarsåtgärder.
Vad den nya datamängden innehåller
Den resulterande datamängden täcker 3 158 katastrofhändelser över 175 länder och 26 typer av faror, från jordbävningar och stormar till torka och epidemier. Varje rad i en enda CSV-fil innehåller standardinformation från EM-DAT tillsammans med den AI-skrivna storylinen och de extraherade orsak-och-verkan-tripplarna. En onlinepanel låter användare bläddra bland händelser efter land, typ och händelsekod, och sedan granska både narrativet och dess motsvarande graf. Även om systemet bara fångar ungefär hälften av alla EM-DAT-händelser över decenniet, inkluderar det omkring 80 % av de rapporterade ekonomiska förlusterna, vilket återspeglar det intensiva medieintresset för de mest förödande katastroferna.

Testa kvaliteten med experter i fältet
Eftersom katastrofriskhantering är ett område med höga insatser testade teamet noggrant hur trovärdiga deras AI-genererade grafer är. Sex experter granskade 1 000 slumpmässigt utvalda orsak-och-verkan-uttalanden och bedömde om varje uttalande stödjs av källtexten. Sammantaget bedömdes nästan två tredjedelar av uttalandena som korrekta av majoritetsomröstning, med måttlig överensstämmelse mellan experterna. I en separat workshop granskade cirka 30 katastrofproffs från europeiska civilskyddsmyndigheter 34 fullständiga grafer. De flesta bedömningarna hamnade i ”helt korrekt” eller ”för det mesta korrekt”, särskilt för bättre dokumenterade händelser som översvämningar och stormar. En liten nätundersökning visade att deltagarna i allmänhet ansåg narrativen vara korrekta och graferna något användbara för att greppa komplexa situationer.
Varför detta är viktigt för framtida katastrofer
För allmänheten och beslutsfattare är huvudbudskapet att detta projekt visar hur AI kan hjälpa till att göra översvallande flöden av katastrofnyheter begripliga. Genom att omvandla spridda rapporter till konsekventa berättelser och enkla kartor över vad som leder till vad, stödjer datamängden bättre riskbedömningar, scenario-planering och utformning av tidiga varningssystem. Författarna betonar att deras grafer inte är perfekta eller fullständiga modeller av verkligheten, och att nyhetskällor och engelskspråkig partiskhet lämnar viktiga luckor. Men eftersom all data, kod och promptar delas öppet kan andra förfina, utöka och anpassa tillvägagångssättet. På lång sikt kan sådana verktyg hjälpa samhällen att reagera snabbare och mer intelligent när nästa kris inträffar.
Citering: Ronco, M., Bandelli, L., Bertolini, L. et al. Disaster Storylines and Knowledge Graphs from Global News with Large Language Models and Retrieval-Augmented Generation. Sci Data 13, 689 (2026). https://doi.org/10.1038/s41597-026-07036-2
Nyckelord: katastrofrisk, kunskapsgrafer, nyhetsdata, stora språkmodeller, tidig varning