Clear Sky Science · de

Ein hochpräziser Katalog von Erdrutschereignissen in China basierend auf Nachrichten-Text-Mining mit großem Sprachmodell

· Zurück zur Übersicht

Warum diese Erdrutschkarte wichtig ist

Erdrutsche töten jedes Jahr Tausende von Menschen und zerstören Häuser, Straßen und Ackerland, doch grundlegende Fakten darüber, wann und wo sie auftreten, sind oft überraschend schwer zu finden. Diese Studie erstellt durch das ‚Lesen‘ jahrelanger Nachrichtenberichte durch ein Computersystem einen detaillierten Katalog von mehr als tausend Erdrutschen auf dem chinesischen Festland. Das Ergebnis ist ein öffentliches Datenset, das helfen kann, Warnsysteme zu verbessern, sichereren Bau zu fördern und klügere Katastrophenplanung zu unterstützen.

Figure 1. Aus Tausenden verstreuter Zeitungsberichte eine präzise landesweite Karte der Erdrutsche in China erstellen.
Figure 1. Aus Tausenden verstreuter Zeitungsberichte eine präzise landesweite Karte der Erdrutsche in China erstellen.

Von verstreuten Berichten zu einem nationalen Bild

Bisher gab es in China nur lückenhafte Aufzeichnungen über Erdrutsche. Amtliche Mitteilungen zählten meist nur, wie viele Ereignisse pro Jahr oder pro Provinz stattfanden, nannten aber selten genaue Orte oder Zeitpunkte. Internationale Kataloge konzentrierten sich überwiegend auf die größten oder tödlichsten Ereignisse weltweit und verpassten häufig lokale Berichte auf Chinesisch. Das hinterließ Forschende ohne ein klares, feinmaschiges Bild der Erdrüche im ganzen Land, was es erschwerte zu beurteilen, wo Hänge am gefährlichsten sind oder wie sich das Risiko über die Zeit verändert.

Computer die Nachrichten lesen lassen

Die Autorinnen und Autoren griffen auf China News Network zurück, eine große nationale Nachrichtenseite, die laufend Berichte aus dem ganzen Land veröffentlicht. Sie sammelten mehr als 33.000 Artikel, in denen von „Erdrutsch“ die Rede war, aus den Jahren 2008 bis 2024, und filterten zunächst Texte heraus, die den Begriff metaphorisch verwendeten, etwa für eine Wahl oder einen Börsencrash. Anschließend setzten sie ein großes Sprachmodell, eine Form fortgeschrittener künstlicher Intelligenz, die auf riesigen Textmengen trainiert ist, ein, um aus jedem echten Schadensbericht zentrale Fakten zu extrahieren. Für jedes Ereignis versuchte das System, den Zeitpunkt, den Ort, die Auslöser sowie die Zahl der Getöteten, Verletzten oder Vermissten zu ermitteln.

Bereinigen, prüfen und Ereignisse auf der Karte verorten

Rohes KI-Output ist nicht perfekt, weshalb das Team mehrere Prüfungen hinzufügte. Sie entfernten Einträge ohne klare Zeit- oder Ortsangaben und strichen Berichte, die nur eine weit gefasste Region wie eine Provinz nannten, ohne nützliche Details. Das häufige Problem, dass mehrere Artikel dasselbe Ereignis behandelten, lösten sie, indem sie zeitliche Nähe und Ähnlichkeit der Ortsbeschreibungen verglichen und wahrscheinliche Duplikate zusammenführten. Menschliche Expertinnen und Experten überprüften alle verbleibenden Einträge und korrigierten Fehler. Um geschriebene Ortsnamen in Kartenkoordinaten zu überführen, nutzten die Autorinnen und Autoren einen Online-Kartendienst und eigene Regeln, um die beste Übereinstimmung zu wählen, gefolgt von manuellen Prüfungen bei zweifelhaften Fällen.

Figure 2. Schrittweise Filterung von Nachrichten durch KI, um zeitlich und räumlich genau datierte Einträge einzelner Erdrutsche zu erzeugen.
Figure 2. Schrittweise Filterung von Nachrichten durch KI, um zeitlich und räumlich genau datierte Einträge einzelner Erdrutsche zu erzeugen.

Was der neue Katalog offenbart

Das endgültige Datenset umfasst 1.582 Erdrutsche mit ungewöhnlich präzisen Informationen. Etwa die Hälfte der Ereignisse ist bis zur exakten Stunde oder sogar Minute datiert, und mehr als 80 Prozent sind auf Dorfebene oder an einem spezifischen Ort wie einem Straßenschnitt oder Hang verortet. Die meisten erfassten Erdrutsche wurden durch Starkregen ausgelöst, besonders in Südchina, während erdbebenbedingte Ereignisse nahe dem östlichen Rand des Tibetischen Plateaus gehäuft auftreten. Im Vergleich mit zwei weit verbreiteten globalen Erdrutsch-Datenbanken enthält dieser neue Katalog für China im gleichen Zeitraum etwa zweieinhalbmal so viele Ereignisse und lokalisiert sie sowohl zeitlich als auch räumlich präziser.

Wie zuverlässig ist KI beim Lesen der Nachrichten

Um die Genauigkeit zu prüfen, verglich das Team die von der KI extrahierten Einträge mit offiziellen Berichten zu bekannten Katastrophen und mit detaillierten lokalen geologischen Untersuchungen. Sie fanden heraus, dass das System sehr gut darin war, grundlegende Details wie Zeitpunkt, Ort und Auslöser eines Erdrutsches zu erfassen, jedoch weniger zuverlässig beim Erfassen von Todes-, Verletzten- und Vermisstenzahlen, die sich während des Einsatzverlaufs oft ändern. Insgesamt stimmten die Nachrichtenberichte selbst in Timing und Ort eng mit Regierungsquellen überein, was bestätigt, dass sie eine verlässliche Basis für den Aufbau eines solchen Katalogs bilden.

Was das für künftige Sicherheit bedeutet

Für Nichtfachleute ist die Kernbotschaft, dass Computer inzwischen jahrelange Nachrichtenberichterstattung durchsieben können, um klare, detaillierte Karten zu erstellen, wo gefährliche Hänge versagt haben. Dieser chinesische Erdrutsch-Katalog ist kein vollständiger Nachweis jedes einzelnen Ereignisses, besonders nicht der kleinen, die kaum Spuren in den Medien hinterließen, und Angaben zu Opfern sind mit Vorsicht zu behandeln. Trotzdem machen seine feine zeitliche und räumliche Auflösung ihn zu einem mächtigen Werkzeug für Wissenschaftlerinnen und Wissenschaftler, die Warnmodelle testen, für Planerinnen und Planer bei Standortentscheidungen für Straßen und Siedlungen und für Behörden bei der Vorbereitung auf künftige Stürme und Erdbeben.

Zitation: Zhao, B., Zhang, L., Liu, Z. et al. A high-precision catalogue of landslide events in China based on news text mining with large language model. Sci Data 13, 722 (2026). https://doi.org/10.1038/s41597-026-07066-w

Schlüsselwörter: Erdrutsch-Katalog, Gefahren in China, Nachrichtentext-Mining, großes Sprachmodell, Daten zu Katastrophenrisiken