Clear Sky Science · nl
Een hoogprecies catalogus van aardverschuivingen in China gebaseerd op nieuws-tekstmining met een groot taalmodel
Waarom deze aardverschuivingskaart ertoe doet
Aardverschuivingen doden jaarlijks duizenden mensen en verwoesten huizen, wegen en landbouwgrond, maar basisgegevens over wanneer en waar ze plaatsvinden zijn vaak verrassend moeilijk te vinden. Deze studie bouwt een gedetailleerde catalogus van meer dan duizend aardverschuivingen in het vasteland van China door een computersysteem jaren aan nieuwsberichten te laten lezen. Het resultaat is een openbaar dataset die kan helpen waarschuwingssystemen te verbeteren, veiliger bouwen te begeleiden en slimmer rampenplanvorming te ondersteunen.

Van verspreide verhalen naar een nationaal beeld
Tot nu toe had China slechts gedeeltelijke registers van aardverschuivingen. Officiële bulletins telden hoeveel gebeurtenissen er elk jaar of per provincie plaatsvonden, maar bevatten zelden exacte locaties of tijden. Internationale catalogi concentreerden zich voornamelijk op de grootste of dodelijkste gebeurtenissen wereldwijd en misten vaak lokale rapporten in het Chinees. Dat liet onderzoekers zonder een duidelijk, fijnmazig beeld van aardverschuivingen in het hele land, wat het moeilijk maakte te beoordelen waar hellingen het gevaarlijkst zijn of hoe het risico in de loop van de tijd verandert.
Computers nieuws laten lezen
De auteurs wendden zich tot China News Network, een grote nationale nieuwssite die continu berichten publiceert vanuit het hele land. Ze schraapten meer dan 33.000 artikelen met het woord "aardverschuiving" van 2008 tot 2024 en filterden vervolgens stukken uit die de term als metafoor gebruikten, bijvoorbeeld voor een verkiezingsoverwinning of een beurscrash. Daarna gebruikten ze een groot taalmodel, een type geavanceerde kunstmatige intelligentie getraind op enorme hoeveelheden tekst, om uit elk echt rampenrapport belangrijke feiten te halen. Voor elk incident probeerde het systeem het tijdstip te bepalen, de plaats, wat het veroorzaakte en hoeveel mensen werden gedood, gewond of vermist.
Gegevens opschonen, controleren en op de kaart zetten
Ruwe AI-uitvoer is niet perfect, dus voegde het team meerdere controlelagen toe. Ze verwijderden records zonder duidelijke tijd- of plaatsinformatie en lieten rapporten vallen die alleen een brede regio noemden, zoals een provincie, zonder nuttige details. Ze losten ook het veelvoorkomende probleem van meerdere berichten over dezelfde ramp op door te vergelijken hoe dicht gebeurtenissen in de tijd lagen en hoe vergelijkbaar hun locatiebeschrijvingen waren, en voegde vervolgens waarschijnlijke duplicaten samen. Menselijke experts controleerden alle overgebleven records en corrigeerden fouten. Om geschreven plaatsnamen om te zetten naar kaartcoördinaten gebruikten de auteurs een online kaartendienst en aangepaste regels om de beste match te kiezen, gevolgd door handmatige controles voor twijfelgevallen.

Wat de nieuwe catalogus onthult
De uiteindelijke dataset bevat 1.582 aardverschuivingen met uitzonderlijk precieze informatie. Ongeveer de helft van de gebeurtenissen is gedateerd tot het exacte uur of zelfs de minuut, en meer dan 80 procent is gelokaliseerd op dorpsschaal of een specifieke locatie zoals een wegberm of helling. De meeste vastgelegde aardverschuivingen werden veroorzaakt door zware regenval, vooral in Zuid-China, terwijl aardbevingsgerelateerde gebeurtenissen clusteren nabij de oostelijke rand van het Tibetaanse Plateau. In vergelijking met twee veelgebruikte globale aardverschuivingsdatabases bevat deze nieuwe catalogus ongeveer tweeënhalf keer meer gebeurtenissen in China over dezelfde jaren en lokaliseert ze die nauwkeuriger in zowel tijd als ruimte.
Hoe betrouwbaar is AI die het nieuws leest
Om de nauwkeurigheid te testen vergeleek het team hun door AI geëxtraheerde records met officiële rapporten over bekende rampen en met gedetailleerde lokale geologische onderzoeken. Ze vonden dat het systeem zeer goed was in het ophalen van basisdetails zoals wanneer en waar een aardverschuiving plaatsvond en wat deze veroorzaakte, maar minder betrouwbaar bij het tellen van doden, gewonden en vermisten, aantallen die vaak veranderen naarmate noodsituaties zich ontwikkelen. Over het geheel genomen kwamen de nieuwsberichten zelf goed overeen met overheidsbronnen wat betreft timing en locatie, wat bevestigt dat ze een betrouwbare basis vormen voor het opbouwen van zo’n catalogus.
Wat dit betekent voor toekomstige veiligheid
Voor niet-specialisten is de kernboodschap dat computers nu jaren aan nieuwsverslaggeving kunnen doorzoeken om duidelijke, gedetailleerde kaarten te maken van waar gevaarlijke hellingen zijn bezweken. Deze Chinese catalogus van aardverschuivingen is geen volledige registratie van elk voorval, vooral niet van kleine gebeurtenissen die weinig media-aandacht kregen, en slachtofferaantallen moeten met voorzichtigheid worden behandeld. Desondanks vormen de precieze tijdsaanduidingen en locaties een krachtig instrument voor wetenschappers die waarschuwingsmodellen testen, voor planners die beslissen waar wegen en dorpen aangelegd worden, en voor functionarissen die zich voorbereiden op toekomstige stormen en aardbevingen.
Bronvermelding: Zhao, B., Zhang, L., Liu, Z. et al. A high-precision catalogue of landslide events in China based on news text mining with large language model. Sci Data 13, 722 (2026). https://doi.org/10.1038/s41597-026-07066-w
Trefwoorden: catalogus aardverschuivingen, China gevaren, nieuws tekstmining, groot taalmodel, ramp risicogegevens