Clear Sky Science · ru

Многоязычный набор новостей об Украине (2022–2025): сбор данных и документация

· Назад к списку

Почему эта коллекция новостей важна

С момента полномасштабного вторжения России в Украину в 2022 году война ведётся не только на земле, но и на экранах и в лентах социальных сетей. То, что люди по всему миру читают о конфликте, формирует их понимание происходящего, уровень доверия и симпатии к той или иной стороне. В этой статье представлена большая, тщательно организованная коллекция онлайн-новостей об Украине за 2022–2025 годы, созданная для помощи исследователям в изучении этого информационного поля и в разработке инструментов для выявления вводящих в заблуждение утверждений.

Figure 1
Figure 1.

Проблема правды в военное время

Авторы начинают с описания того, как война вызвала волну пропаганды и ложных сюжетов. Российские государственные СМИ и онлайн-сети продвигали повторяющиеся утверждения о предполагаемых «неонацистах» в Украине, секретных лабораториях или инсценированных военных преступлениях. В то же время фактчекинг и научные исследования показывают, что даже когда людей успешно корректируют по отдельным мифам, их более широкие политические взгляды часто остаются неизменными. Исследования в странах Восточной Европы и далее показывают, что вера в теории заговора о COVID-19 часто сочетается с верой в прокремлёвские нарративы о войне, особенно среди тех, кто не доверяет мейнстримным СМИ и властям и предпочитает альтернативные информационные пространства.

Как новости формируют общественное понимание

Освещение войны в новостях сильно зависит от места. Сравнительные исследования показывают, что украинские и западные издания склонны подчёркивать человеческие страдания и сопротивление, тогда как российские СМИ изображают противника чудовищным, а свои действия — оправданными. В частях Азии и стран Глобального Юга освещение может больше фокусироваться на глобальной борьбе за влияние или роли НАТО, а не на гражданских лицах. Эти разные углы зрения влияют на то, как местная аудитория воспринимает конфликт и его участников. На этом фоне наличие прозрачного, общего источника новостных статей становится важным для понимания доминирующих тем в освещении и того, как нарративы меняются со временем.

Создание общего пула новостных статей

Чтобы удовлетворить эту потребность, авторы создали многоязычный набор данных из 120 617 новостных статей, связанных с Украиной, опубликованных в 2022–2025 годах. Они разработали автоматизированный конвейер, который для каждого дня выбранного периода формирует адреса сайтов, загружает веб-страницы новостей и извлекает заголовки и полный текст статей. Когда статьи доступны на других языках, шаг машинного перевода создаёт украинские версии, чтобы материалы было легче сравнивать. Каждому элементу затем присваивается широкая тема с помощью правил на основе ключевых слов (например, посвящена ли статья лидерам Украины, внутренней ситуации в России или международной реакции). В результате получается большая таблица, где каждая строка — это одна статья с ссылкой, датой, оригинальным текстом, переведённым текстом (когда он есть) и приблизительной темой.

Как выглядит набор данных

Коллекция преимущественно составлена из украинских источников и материалов на украинском языке, что отражает фокус работы команды и центральную роль украинских изданий в освещении войны. Большинство заголовков и основных текстов — на украинском, с небольшими долями на русском, английском и нескольких европейских языках. Длины статей сильно варьируются — от кратких заметок до очень длинных аналитических материалов — хотя типичные новостные репортажи укладываются в диапазон нескольких тысяч символов. Наибольшая доля статей посвящена тому, как Украина представлена в информационном пространстве РФ, далее следуют материалы о политическом и военном руководстве Украины и репортажи о внутренней ситуации в самой России. Набор данных хранится в простом файле с разделителями-запятыми, чтобы его можно было загружать стандартными инструментами анализа без специального ПО.

Figure 2
Figure 2.

Проверка качества и ограничения

Поскольку эта коллекция предназначена как основа для исследований, а не как готовый аналитический продукт, авторы подчёркивают тщательные технические проверки. Они удалили статьи, веб-страницы которых не удалось загрузить, или точные дубликаты. Провели выборочную проверку корректности языковых меток, проинспектировали пропущенные значения и удостоверились, что машинные переводы полные. В то же время авторы отмечают, что тематические метки — лишь грубые ориентиры, основанные на ключевых словах, а не окончательные экспертные суждения о том, что «на самом деле» означает каждая статья. Аналогично, они не пытались исправлять возможные ошибки перевода, которые могут иметь значение в политически чувствительных фрагментах.

Что это открывает в будущем

Для неспециалистов ключевая мысль такова: этот проект предоставляет публичную, повторно используемую карту того, как писали о Украине в одни из самых бурных лет её современной истории. Журналисты, социальных учёные и специалисты по вычислительным методам могут пользоваться одним и тем же пулом материалов для изучения медианаклонов, отслеживания распространения вводящих в заблуждение нарративов или обучения языковых технологий, помогающих выявлять подозрительный контент. Документируя процесс сбора данных подробно и делая доступными как сами данные, так и код, авторы стремятся поддержать прозрачную, воспроизводимую работу по информационной войне и в конечном счёте укрепить способность общества противостоять манипуляциям в кризисные времена.

Цитирование: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

Ключевые слова: медиа войны в Украине, дезинформация, набор новостей, многоязычная журналистика, информационная война