Clear Sky Science · pl
Wysokoprecyzyjny katalog osuwisk w Chinach oparty na analizie tekstów prasowych z wykorzystaniem dużego modelu językowego
Dlaczego ta mapa osuwisk ma znaczenie
Osuwiska zabijają co roku tysiące osób i niszczą domy, drogi oraz pola uprawne, a mimo to podstawowe informacje o tym, kiedy i gdzie występują, bywają zaskakująco trudne do ustalenia. W tym badaniu zbudowano szczegółowy katalog obejmujący ponad tysiąc osuwisk na terenie Chin kontynentalnych, ucząc system komputerowy czytania wieloletnich doniesień prasowych. Efektem jest publiczny zestaw danych, który może pomóc w ulepszaniu systemów ostrzegania, wskazywaniu bezpieczniejszych lokalizacji pod zabudowę oraz wspierać mądrzejsze planowanie reagowania na katastrofy.

Z rozproszonych relacji do obrazu krajowego
Do tej pory Chiny miały jedynie częściowe rejestry osuwisk. Oficjalne biuletyny podawały liczbę zdarzeń w danym roku lub prowincji, ale rzadko zawierały dokładne lokalizacje czy czasy. Międzynarodowe katalogi koncentrowały się głównie na największych lub najtragiczniejszych w skali światowej zdarzeniach i często pomijały lokalne raporty w języku chińskim. Pozostawiało to badaczy bez wyraźnego, drobnoziarnistego obrazu rozmieszczenia osuwisk w kraju, utrudniając ocenę, które zbocza są najbardziej niebezpieczne i jak zmienia się ryzyko w czasie.
Pozwalając komputerom czytać wiadomości
Autorzy zwrócili się do China News Network, dużego krajowego serwisu informacyjnego publikującego relacje z całego kraju przez całą dobę. Zeskrobywali ponad 33 000 artykułów zawierających słowo „osuwisko” z lat 2008–2024, po czym odfiltrowali teksty używające tego terminu w przenośni, na przykład w kontekście wyborów czy krachu giełdowego. Następnie wykorzystali duży model językowy, rodzaj zaawansowanej sztucznej inteligencji trenowanej na ogromnych zbiorach tekstu, by wydobyć kluczowe fakty z każdego prawdziwego raportu o katastrofie. Dla każdego zdarzenia system próbował zidentyfikować czas wystąpienia, miejsce, czynnik wywołujący oraz liczbę zabitych, rannych i zaginionych.
Oczyszczanie, weryfikacja i umieszczanie zdarzeń na mapie
Surowe wyniki AI nie są doskonałe, więc zespół dodał kilka warstw kontroli. Usunęli rekordy bez jasnych informacji o czasie lub miejscu oraz odrzucili raporty, które podawały jedynie szeroki region, na przykład prowincję, bez przydatnych szczegółów. Radzili sobie też z częstym problemem wielokrotnych artykułów opisujących to samo zdarzenie, porównując zbieżność czasową i podobieństwo opisów lokalizacji, a następnie scalając prawdopodobne duplikaty. Eksperci ludzie przejrzeli wszystkie pozostałe zapisy i poprawili błędy. Aby przekształcić nazwy miejsc w współrzędne mapowe, autorzy użyli internetowej usługi mapowej i niestandardowych reguł wyboru najlepszego dopasowania, a następnie ponownie przeprowadzili ręczne kontrole w wątpliwych przypadkach.

Co ujawnia nowy katalog
Końcowy zestaw danych obejmuje 1 582 osuwiska z niezwykle precyzyjnymi informacjami. Około połowy zdarzeń jest datowanych z dokładnością do godziny, a nawet minuty, a ponad 80 procent ma lokalizację na poziomie wsi lub konkretnego miejsca, takiego jak nasyp drogowy czy zbocze. Większość zarejestrowanych osuwisk została wywołana przez intensywne opady deszczu, zwłaszcza w południowych Chinach, podczas gdy zdarzenia związane z wstrząsami sejsmicznymi skupiają się w pobliżu wschodniej krawędzi Wyżyny Tybetańskiej. W porównaniu z dwoma szeroko używanymi globalnymi bazami danych o osuwiskach, nowy katalog zawiera około dwa i pół raza więcej zdarzeń w Chinach za ten sam okres i lokalizuje je dokładniej zarówno w czasie, jak i w przestrzeni.
Na ile wiarygodne jest czytanie wiadomości przez SI
Aby przetestować dokładność, zespół porównał rekordy wydobyte przez AI z oficjalnymi raportami dotyczącymi znanych katastrof oraz z szczegółowymi lokalnymi badaniami geologicznymi. Stwierdzili, że system bardzo dobrze wydobywa podstawowe szczegóły, takie jak czas i miejsce wystąpienia osuwiska oraz czynnik wywołujący, ale mniej wiarygodnie podaje liczby ofiar śmiertelnych, rannych i zaginionych, które często zmieniają się w miarę rozwoju sytuacji kryzysowej. Ogólnie rzecz biorąc, same relacje prasowe były zbliżone do źródeł rządowych pod względem czasu i lokalizacji, co potwierdza, że stanowią one godne zaufania źródło do budowy takiego katalogu.
Co to oznacza dla przyszłego bezpieczeństwa
Dla osób niebędących specjalistami kluczowy wniosek jest taki, że komputery potrafią już przeczesywać wieloletnie relacje prasowe, by stworzyć jasne, szczegółowe mapy miejsc, gdzie zawiodły niebezpieczne zbocza. Ten chiński katalog osuwisk nie jest kompletnym zapisem wszystkich zdarzeń, szczególnie drobnych, które prawie nie zaistniały w mediach, a liczby ofiar należy traktować ostrożnie. Mimo to jego precyzja czasowa i lokalizacyjna czyni go potężnym narzędziem dla naukowców testujących modele ostrzegania, dla planistów decydujących o lokalizacji dróg i osiedli oraz dla władz przygotowujących się na przyszłe ulewne deszcze i trzęsienia ziemi.
Cytowanie: Zhao, B., Zhang, L., Liu, Z. et al. A high-precision catalogue of landslide events in China based on news text mining with large language model. Sci Data 13, 722 (2026). https://doi.org/10.1038/s41597-026-07066-w
Słowa kluczowe: katalog osuwisk, zagrożenia w Chinach, wydobywanie tekstu z wiadomości, duży model językowy, dane o ryzyku katastrof