Clear Sky Science · pt

Um modelo global de análise de sentimento no Twitter para a vacinação contra a COVID

· Voltar ao índice

Por que os sentimentos sobre vacinas no Twitter importam

Durante a pandemia de COVID-19, governos contaram com vacinas e com a cooperação pública para salvar vidas. Ainda assim, pessoas ao redor do mundo reagiram de formas muito diferentes às campanhas de vacinação, muitas vezes expressando esperanças e medos nas redes sociais. Este estudo vai além dos rótulos simples de “positivo” ou “negativo” em tweets e faz uma pergunta mais profunda: como os comentários sobre a vacinação contra a COVID-19 se apresentam quando levamos em conta o quanto o próprio país foi afetado pelo vírus? Ao combinar o texto dos tweets com dados reais da pandemia, os autores buscam captar o que uma mensagem realmente significa em seu contexto global mais amplo.

De tweets brutos aos sentimentos de primeira análise

Os pesquisadores começaram coletando mais de quarenta mil tweets em inglês sobre a vacinação contra a COVID-19 postados na primavera de 2021, um período crucial em que muitos países atingiam marcos importantes de vacinação. Eles limparam os dados removendo menções a usuários e links da web que não ajudam a julgar o tom. Para atribuir um sentimento inicial a cada tweet, usaram um modelo de linguagem moderno especialmente treinado em conteúdo do Twitter, conhecido como Twitter-roBERTa. Esse modelo classifica tweets em três categorias básicas: positivo, negativo ou neutro, com base unicamente no texto. Os autores chamam essa primeira camada de rotulagem de “sentimento local” do tweet, porque ignora o que está acontecendo no resto do mundo.

Figure 1
Figura 1.

Adicionando o estado real da pandemia

Em seguida, a equipe reuniu estatísticas da COVID-19 em nível nacional — contagens de casos, mortes e população — para dez países distribuídos pela América do Norte, Europa, Ásia e Oceania. Eles converteram esses números em um único “valor de severidade” para cada país, mostrando o quanto cada um foi afetado em relação aos outros durante o período de estudo. Um tweet originário de um país com altas taxas de casos e mortes é, portanto, interpretado de maneira muito diferente de um tweet idêntico em um país com condições mais brandas. Os pesquisadores então fundiram cada tweet com o valor de severidade do país de onde ele provavelmente veio, usando localizações auto-declaradas dos usuários e listas cuidadosamente selecionadas de cidades e regiões para mapear localizações aos países.

Transformando sentimentos locais em nuances globais de opinião

Com o texto do tweet e o contexto do país em mãos, os autores desenharam três métodos para refinar o rótulo de cada tweet — passando de uma simples etiqueta positivo/negativo/neutro para um “sentimento global” mais rico. Os dois primeiros métodos usam regras de probabilidade (teorema de Bayes) para medir quão comum cada tipo de sentimento é dentro de um país ou dentro de dois grandes grupos de países: aqueles em condição pandêmica relativamente “boa” versus “ruim”. Um tweet que contraria o clima predominante em seu contexto, como um comentário positivo raro em um país muito afetado, é tratado como uma expressão de “alta intensidade”, enquanto um que ecoa uma visão comum é tratado como de “baixa intensidade”. O método 2 também distingue rótulos “ligeiramente” e “fortemente” positivos ou negativos, dependendo de o tom do tweet se ajustar ou contradizer a situação do país.

Figure 2
Figura 2.

Um modelo mais inteligente para aprender intensidade automaticamente

O terceiro método usa uma abordagem estatística mais avançada chamada regressão ordinal multinível bayesiana. Em vez de depender de limites fixos, esse modelo aprende, a partir dos próprios dados, como as pontuações de sentimento ao nível do tweet (derivadas das probabilidades do Twitter-roBERTa) interagem com a severidade da pandemia em cada país. Ele leva em conta diferenças entre países enquanto ainda agrega informações entre eles. O modelo então estima, para cada tweet, não apenas se ele é negativo, neutro ou positivo, mas também com que confiança pertence a essa categoria. Tweets cujas probabilidades baseadas no modelo são maiores do que o típico para sua categoria são rotulados como de “alta intensidade”; outros são marcados como de “baixa intensidade”. Isso cria rótulos de sentimento global mais nuançados que refletem tanto a linguagem quanto o contexto de saúde pública.

O que os resultados significam para entender o humor público

Quando os autores usaram esses novos rótulos de sentimento global para treinar classificadores comuns de aprendizado de máquina, descobriram que os rótulos nuançados — especialmente aqueles produzidos pelo modelo avançado — ajudaram os classificadores a aprender padrões mais precisos do que os métodos mais simples. Em termos práticos, isso significa que agências de saúde pública, pesquisadores e analistas de redes sociais podem obter uma visão mais aguçada de como as pessoas realmente se sentem sobre vacinas ao observar tweets por uma lente global, e não apenas lendo as palavras isoladamente. Duas pessoas podem soar igualmente frustradas com a vacinação, mas se uma vive em um país lidando com um surto severo e a outra em um lugar onde a situação está sob controle, suas mensagens têm pesos diferentes. Ao capturar essas diferenças de intensidade, o estudo oferece uma forma mais fundamentada de monitorar o sentimento público e de desenhar respostas que se alinhem melhor às realidades que as pessoas enfrentam.

Citação: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0

Palavras-chave: vacinação contra COVID-19, sentimento no Twitter, análise de mídias sociais, comunicação em saúde pública, aprendizado de máquina