Clear Sky Science · ru

Сценарии бедствий и графы знаний из мировых новостей с помощью больших языковых моделей и генерации с доступом к источникам

2026-03-17 · Назад к списку

Превращение заголовков в полезные повествования

Когда происходит наводнение, лесной пожар или эпидемия, новости поступают быстрее, чем официальная статистика или подробные исследования. В этих статьях скрыты указания на то, что произошло, кто пострадал сильнее всего и какие меры помогли. В статье описан новый открытый набор данных, который с помощью современных методов ИИ превращает десятилетие глобальных новостей о бедствиях в структурированные истории и карты причинно-следственных связей, помогая исследователям, планировщикам и службам экстренного реагирования лучше понимать, как разворачиваются бедствия и как связаны риски.

От сырых новостей к структурированным описаниям событий

Авторы начинают с проверенного глобального каталога бедствий EM-DAT, в котором перечислены тысячи крупных событий по всему миру. Для каждого события в период с 2014 по 2024 год они ищут материалы в огромном многоязычном архиве новостей Europe Media Monitor, уделяя внимание материалам на английском языке. С помощью современных инструментов ИИ они просеивают миллионы статей, чтобы найти те, которые действительно описывают конкретное наводнение, землетрясение, волну тепла или другой риск. Лишь небольшая часть найденных статей проходит этот фильтр, но те, что остаются, дают насыщенную, сфокусированную информацию о каждом событии.

Как ИИ строит повествования и карты причин и следствий

После сбора релевантных статей большой языковой модели предлагается составить структурированную справку или «сюжет» для каждого бедствия. Эти описания следуют четкому шаблону: что произошло и где, насколько это было серьёзно, основные факторы, кто и что были подвержены воздействию, ключевые последствия, возможные вторичные риски, а также меры реагирования и восстановления. На втором этапе аналогичная модель читает полученный сюжет и извлекает простые утверждения причинно-следственных связей в виде троек, например «сильные осадки вызывают внезапное наводнение» или «системы раннего оповещения предотвращают жертвы». Эти утверждения затем собираются в графы знаний — сетевые диаграммы, связывающие опасности, драйверы, последствия и меры реагирования.

Что содержит новый набор данных

В результате набор данных охватывает 3 158 событий бедствий в 175 странах и 26 типах рисков — от землетрясений и штормов до засух и эпидемий. Каждая строка в одном CSV-файле содержит стандартную информацию из EM-DAT вместе с сгенерированным ИИ сюжетом и извлечёнными троиками причинно-следственных связей. Онлайн-панель позволяет просматривать события по странам, типам и кодам событий, а затем изучать как текст повествования, так и соответствующий ему граф. Хотя система фиксирует лишь около половины всех событий EM-DAT за десятилетие, в ней содержится примерно 80% заявленных экономических потерь, что отражает интенсивное внимание СМИ к наиболее разрушительным бедствиям.

Проверка качества экспертами в области

Поскольку управление рисками бедствий — область с высокими ставками, команда тщательно проверяла надёжность своих ИИ-сгенерированных графов. Шесть экспертов исследовали 1 000 случайно отобранных утверждений причинно-следственных связей и оценивали, подтверждается ли каждое из них исходным текстом. В целом почти две трети утверждений были признаны корректными по итогам голосования большинства, при умеренном согласии между экспертами. На отдельном семинаре около 30 специалистов по защите населения из европейских агентств рассмотрели 34 полных графа. Большинство оценок попало в категории «полностью корректно» или «в основном корректно», особенно для лучше документированных событий, таких как наводнения и штормы. Небольшой онлайн-опрос показал, что участники в целом считали повествования точными, а графы — в некоторой степени полезными для понимания сложных ситуаций.

Почему это важно для будущих бедствий

Для широкой публики и лиц, принимающих решения, ключевое сообщение в том, что этот проект демонстрирует, как ИИ может помочь разобраться в огромном потоке новостей о бедствиях. Превращая разбросанные сообщения в последовательные истории и простые карты причин и следствий, набор данных поддерживает более качественные оценки рисков, сценарное планирование и разработку систем раннего предупреждения. Авторы подчёркивают, что их графы не являются идеальными или полными моделями реальности, а также что источники новостей и англоязычная предвзятость оставляют важные пробелы. Тем не менее, поскольку все данные, код и подсказки открыто доступны, другие могут дорабатывать, расширять и адаптировать подход. В долгосрочной перспективе такие инструменты могут помочь обществам реагировать быстрее и разумнее, когда произойдёт следующий кризис.

Цитирование: Ronco, M., Bandelli, L., Bertolini, L. et al. Disaster Storylines and Knowledge Graphs from Global News with Large Language Models and Retrieval-Augmented Generation. Sci Data 13, 689 (2026). https://doi.org/10.1038/s41597-026-07036-2

Ключевые слова: риски бедствий, графы знаний, новостные данные, большие языковые модели, раннее предупреждение