Clear Sky Science · ru

Глобальная модель анализа сентимента в Twitter по поводу вакцинации от COVID

· Назад к списку

Почему важно, как люди пишут о вакцинах в Twitter

Во время пандемии COVID‑19 правительства полагались на вакцины и на сотрудничество населения, чтобы спасать жизни. Тем не менее люди в разных странах реагировали на кампании вакцинации очень по‑разному и часто выражали свои надежды и страхи в социальных сетях. В этом исследовании авторы уходят дальше простых меток «положительно» или «отрицательно» и задают более глубокий вопрос: как выглядят комментарии о вакцинации против COVID‑19, если учесть, насколько тяжело вирус поразил ту или иную страну? Объединяя текст твитов с реальными данными о пандемии, авторы стремятся уловить, что сообщение действительно означает в его более широком глобальном контексте.

От сырых твитов к первичной оценке настроений

Исследователи начали с выборки более сорока тысяч твитов на английском языке о вакцинации против COVID‑19, опубликованных весной 2021 года — в ключевой период, когда во многих странах достигались важные вехи вакцинации. Они очистили данные, удалив упоминания пользователей и веб‑ссылки, которые не помогают оценить тон. Чтобы присвоить каждому твиту первоначальную оценку настроения, использовали современную языковую модель, натренированную на контенте Twitter, известную как Twitter‑roBERTa. Эта модель делит твиты на три базовые категории: положительные, отрицательные или нейтральные, опираясь только на текст. Авторы называют этот первый слой маркировки «локальным сентиментом», поскольку он игнорирует то, что происходит в остальном мире.

Figure 1
Figure 1.

Добавление реального состояния пандемии

Далее команда собрала статистику по COVID‑19 на уровне стран — число случаев, смертей и население — для десяти стран, распределённых по Северной Америке, Европе, Азии и Океании. Они свели эти показатели в единое «значение тяжести» для каждой страны, показывающее, насколько она была поражена по сравнению с другими в период исследования. Твит из страны с высоким уровнем случаев и смертей читается совсем иначе, чем идентичный твит из страны с более мягкой ситуацией. Затем исследователи сопоставили каждый твит со значением тяжести страны, из которой он, скорее всего, пришёл, используя самоназванные пользователями местоположения и тщательно подготовленные списки городов и регионов для сопоставления локаций со странами.

Преобразование локальных настроений в глобальные оттенки мнений

Имея и текст твита, и контекст страны, авторы разработали три метода для уточнения метки твита от простой тега положительно/отрицательно/нейтрально до более богатого понятия «глобального сентимента». Первые два метода используют вероятностные правила (теорему Байеса), чтобы измерить, как часто тот или иной тип настроения встречается в стране или в двух широких группах стран: тех, где ситуация с пандемией относительно «хорошая», и тех, где она «плохая». Твит, противоречащий преобладающему настроению в своём окружении — например, редкий позитивный комментарий в тяжело пострадавшей стране — рассматривается как выражение «высокой интенсивности», тогда как твит, повторяющий распространённую точку зрения, помечается как «низкой интенсивности». Метод 2 также различает «слабо» и «сильно» положительные или отрицательные метки, в зависимости от того, соответствует ли тон твита или противоречит ситуации в стране.

Figure 2
Figure 2.

Более умная модель, чтобы автоматически учиться интенсивности

Третий метод использует более продвинутый статистический подход, называемый байесовской многоуровневой порядковой регрессией. Вместо опоры на фиксированные пороги эта модель сама по данным учится тому, как оценки настроений на уровне твитов (выведенные из вероятностей Twitter‑roBERTa) взаимодействуют со степенью тяжести пандемии в каждой стране. Она учитывает различия между странами, одновременно аккумулируя информацию по ним. Модель затем оценивает для каждого твита не только то, является ли он отрицательным, нейтральным или положительным, но и с какой уверенностью он принадлежит к этой категории. Твиты, чьи модельные вероятности выше обычного для их категории, маркируются как «высокой интенсивности»; остальные — как «низкой интенсивности». Это даёт нюансированные метки глобального сентимента, которые отражают и язык, и контекст общественного здравоохранения.

Что означают результаты для понимания общественного настроения

Когда авторы использовали эти новые глобальные метки сентимента для обучения обычных классификаторов машинного обучения, они обнаружили, что нюансированные метки — особенно полученные с помощью продвинутой модели — помогали классификаторам выявлять более точные закономерности, чем грубые методы. На практике это означает, что органы общественного здравоохранения, исследователи и аналитики социальных сетей могут получить более чёткое представление о том, что люди действительно чувствуют по поводу вакцин, если смотреть на твиты через глобальную призму, а не только читать слова в изоляции. Два человека могут звучать одинаково раздражёнными по поводу вакцинации, но если один живёт в стране, где идёт тяжёлая вспышка, а другой — в месте с контролируемой ситуацией, их сообщения имеют разный вес. Фиксируя эти различия в интенсивности, исследование предлагает более обоснованный способ мониторинга общественного мнения и разработки ответных мер, лучше соответствующих реалиям, с которыми сталкиваются люди.

Цитирование: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0

Ключевые слова: вакцинация против COVID-19, настроения в Twitter, анализ социальных сетей, коммуникации в области общественного здравоохранения, машинное обучение