Clear Sky Science · ru

Высокоточный каталог оползневых происшествий в Китае на основе анализа новостных текстов с помощью большой языковой модели

· Назад к списку

Почему эта карта оползней важна

Оползни убивают тысячи людей и ежегодно разрушают дома, дороги и сельскохозяйственные угодья, однако основные сведения о том, когда и где они происходят, нередко трудно найти. В этом исследовании создан подробный каталог более чем тысячи оползней по материковому Китаю: для этого компьютерную систему обучили «читать» многолетние новостные сообщения. В результате получен открытый набор данных, который может помочь улучшить системы оповещения, направлять безопасное строительство и поддерживать более обдуманное планирование при чрезвычайных ситуациях.

Figure 1. Преобразование тысяч разрозненных новостных сообщений в точную общенациональную карту оползней в Китае.
Figure 1. Преобразование тысяч разрозненных новостных сообщений в точную общенациональную карту оползней в Китае.

От разрозненных сообщений к национальной картине

До сих пор в Китае были только фрагментарные записи об оползнях. Официальные бюллетени подсчитывали число происшествий в год или по провинциям, но редко указывали точные места или время. Международные каталоги в основном концентрировались на самых крупных или смертоносных событиях в мире и часто пропускали локальные сообщения на китайском языке. В результате у исследователей не было чёткого, детализированного представления об оползнях по всей стране, что затрудняло оценку, где склоны наиболее опасны и как со временем меняется риск.

Даем компьютеру «читать» новости

Авторы обратились к China News Network, крупному национальному новостному сайту, который публикует материалы со всей страны круглосуточно. Они собрали более 33 000 статей, в которых с 2008 по 2024 год упоминалось слово «оползень», а затем отфильтровали тексты, где термин использовался как метафора, например про выборы или крах рынка. Далее они применили большую языковую модель — тип продвинутого искусственного интеллекта, обученного на огромных массивах текстов — чтобы извлечь ключевые факты из каждого настоящего отчёта о бедствии. Для каждого события система пыталась определить время его появления, место, причину и число погибших, раненых или пропавших без вести.

Очистка, проверка и привязка событий на карте

Сырые результаты работы ИИ не идеальны, поэтому команда добавила несколько уровней проверки. Они удалили записи без чёткой информации о времени или месте и отбросили сообщения, где называлась только большая область, например провинция, без полезных деталей. Также решили проблему множества материалов об одном и том же происшествии, сравнивая близость событий во времени и схожесть описаний мест и затем объединяя вероятные дубликаты. Все оставшиеся записи проверяли эксперты-люди и корректировали ошибки. Чтобы преобразовать письменные названия мест в координаты на карте, авторы использовали онлайн-картографический сервис и собственные правила для выбора наилучшего совпадения, после чего сомнительные случаи снова проверяли вручную.

Figure 2. Пошаговая фильтрация новостных рассказов с помощью ИИ для получения точно датированных и привязанных к месту записей об отдельных оползнях.
Figure 2. Пошаговая фильтрация новостных рассказов с помощью ИИ для получения точно датированных и привязанных к месту записей об отдельных оползнях.

Что выявил новый каталог

Окончательный набор данных включает 1 582 оползня с необычно точной информацией. Около половины событий датированы с точностью до часа или даже минуты, а более 80 процентов привязаны к масштабу деревни или конкретной точке, например обрыву у дороги или склону. Большинство зафиксированных оползней были вызваны сильными дождями, особенно на юге Китая, тогда как связанные с землетрясениями события сосредоточены у восточной кромки Тибетского нагорья. По сравнению с двумя широко используемыми глобальными базами данных по оползням этот новый каталог содержит примерно в два с половиной раза больше событий в Китае за те же годы и даёт более точную их привязку во времени и пространстве.

Насколько надёжен ИИ при «чтении» новостей

Для проверки точности команда сопоставила извлечённые ИИ записи с официальными отчётами о хорошо известных бедствиях и с подробными местными геологическими обследованиями. Они обнаружили, что система очень хорошо выделяет базовые детали — когда и где произошёл оползень и что его спровоцировало, — но менее надёжна при подсчёте погибших, раненых и пропавших, поскольку эти цифры часто меняются по мере развития событий. В целом сами новости достаточно точно соответствовали правительственным источникам по времени и месту, что подтверждает их надёжность как основы для такого каталога.

Что это значит для будущей безопасности

Для неспециалистов ключевая мысль в том, что теперь компьютеры способны просеивать годы новостного покрытия и создавать ясные, детализированные карты мест, где произошли оползни. Этот китайский каталог оползней не является исчерпывающим списком всех событий, особенно мелких, оставивших мало следов в СМИ, и данные о жертвах следует воспринимать осторожно. Тем не менее его точная привязка по времени и месту делает его мощным инструментом для учёных, тестирующих модели предупреждения, для планировщиков, решающих, где строить дороги и населённые пункты, и для чиновников, готовящихся к будущим ливням и землетрясениям.

Цитирование: Zhao, B., Zhang, L., Liu, Z. et al. A high-precision catalogue of landslide events in China based on news text mining with large language model. Sci Data 13, 722 (2026). https://doi.org/10.1038/s41597-026-07066-w

Ключевые слова: каталог оползней, риски в Китае, анализ новостных текстов, большая языковая модель, данные по рискам катастроф