Clear Sky Science · fr
Un catalogue de haute précision des glissements de terrain en Chine basé sur l’extraction d’informations dans les médias à l’aide d’un grand modèle de langage
Pourquoi cette carte des glissements importe
Les glissements de terrain causent chaque année des milliers de morts et détruisent des maisons, des routes et des terres agricoles, et pourtant des informations de base sur le lieu et le moment où ils surviennent peuvent être étonnamment difficiles à obtenir. Cette étude établit un catalogue détaillé de plus d’un millier de glissements à travers la Chine continentale en apprenant à un système informatique à lire des années d’articles de presse. Le résultat est un jeu de données public qui peut aider à améliorer les systèmes d’alerte, orienter des constructions plus sûres et soutenir une planification des catastrophes plus éclairée.

De récits dispersés à une image nationale
Jusqu’à présent, la Chine ne disposait que d’enregistrements partiels des glissements de terrain. Les bulletins officiels comptabilisaient combien d’événements se produisaient chaque année ou par province, mais incluaient rarement des localisations ou des horaires précis. Les catalogues internationaux se concentraient principalement sur les événements les plus importants ou meurtriers dans le monde et manquaient souvent les rapports locaux en chinois. Cela laissait les chercheurs sans une vision claire et fine des glissements à travers le pays, rendant difficile l’évaluation des pentes les plus dangereuses ou de l’évolution du risque dans le temps.
Laisser les ordinateurs lire la presse
Les auteurs se sont tournés vers China News Network, un grand site d’information national qui publie en continu des articles de tout le pays. Ils ont récupéré plus de 33 000 articles mentionnant le mot « glissement de terrain » entre 2008 et 2024, puis ont filtré les textes utilisant le terme au sens figuré, par exemple pour une élection ou un krach boursier. Ensuite, ils ont utilisé un grand modèle de langage, un type d’intelligence artificielle avancée entraînée sur d’énormes volumes de texte, pour extraire les faits clés de chaque reportage sur un désastre réel. Pour chaque événement, le système a tenté d’identifier le moment où il s’est produit, le lieu, la cause déclenchante et le nombre de personnes tuées, blessées ou portées disparues.
Nettoyer, vérifier et géolocaliser les événements
Les résultats bruts de l’IA ne sont pas parfaits, aussi l’équipe a-t-elle ajouté plusieurs niveaux de vérification. Ils ont éliminé les enregistrements sans information temporelle ou spatiale claire et rejeté les rapports ne mentionnant qu’une vaste région, comme une province, sans détail utile. Ils ont aussi géré le problème courant de multiples articles couvrant le même désastre en comparant la proximité temporelle des événements et la similarité des descriptions de lieu, puis en fusionnant les doublons probables. Des experts humains ont relu tous les enregistrements restants et corrigé les erreurs. Pour transformer des noms de lieux écrits en coordonnées cartographiques, les auteurs ont utilisé un service de cartographie en ligne et des règles personnalisées pour choisir la meilleure correspondance, suivies à nouveau de contrôles manuels pour les cas douteux.

Ce que révèle le nouveau catalogue
Le jeu de données final comprend 1 582 glissements de terrain avec des informations exceptionnellement précises. Environ la moitié des événements sont datés à l’heure près, voire à la minute, et plus de 80 % sont localisés à l’échelle d’un village ou d’un site spécifique comme une coupe de route ou un versant. La plupart des glissements recensés ont été déclenchés par de fortes pluies, en particulier dans le sud de la Chine, tandis que les événements liés aux séismes se concentrent près du bord oriental du plateau tibétain. Comparé à deux bases de données mondiales largement utilisées sur les glissements, ce nouveau catalogue contient environ deux fois et demie plus d’événements en Chine sur les mêmes années et les localise de façon plus précise dans le temps et dans l’espace.
Quelle fiabilité pour l’IA qui lit les médias
Pour tester la précision, l’équipe a comparé ses enregistrements extraits par l’IA avec des rapports officiels sur des catastrophes bien connues et avec des enquêtes géologiques locales détaillées. Ils ont constaté que le système était très performant pour extraire des détails de base comme le moment et le lieu d’un glissement et son déclencheur, mais moins fiable pour chiffrer le nombre de morts, de blessés et de disparus, qui évoluent souvent au fur et à mesure que la situation d’urgence se précise. Globalement, les articles de presse concordaient étroitement avec les sources gouvernementales sur le timing et la localisation, confirmant qu’ils constituent une base fiable pour construire un tel catalogue.
Ce que cela signifie pour la sécurité future
Pour les non-spécialistes, le message principal est que les ordinateurs peuvent désormais trier des années de couverture médiatique pour créer des cartes claires et détaillées des endroits où des pentes dangereuses se sont effondrées. Ce catalogue chinois des glissements de terrain n’est pas un enregistrement exhaustif de chaque événement, notamment les petits incidents peu relayés par les médias, et les chiffres de victimes doivent être pris avec précaution. Même ainsi, sa précision temporelle et spatiale en fait un outil puissant pour les scientifiques qui testent des modèles d’alerte, pour les aménageurs qui décident où construire routes et villes, et pour les responsables qui se préparent aux futures tempêtes et aux séismes.
Citation: Zhao, B., Zhang, L., Liu, Z. et al. A high-precision catalogue of landslide events in China based on news text mining with large language model. Sci Data 13, 722 (2026). https://doi.org/10.1038/s41597-026-07066-w
Mots-clés: catalogue des glissements de terrain, risques en Chine, extraction de texte dans les médias, grand modèle de langage, données sur les risques de catastrophe