Clear Sky Science · pl

Globalny model analizy sentymentu na Twitterze dotyczący szczepień przeciw COVID

· Powrót do spisu

Dlaczego uczucia wobec szczepionek na Twitterze mają znaczenie

W czasie pandemii COVID-19 rządy polegały na szczepionkach i współpracy społeczeństwa, by ratować życie. Jednak ludzie na całym świecie reagowali na kampanie szczepień bardzo różnie, często ujawniając swoje nadzieje i obawy w mediach społecznościowych. To badanie wykracza poza proste etykiety „pozytywny” lub „negatywny” na tweetach i stawia głębsze pytanie: jak wyglądają komentarze o szczepieniach przeciw COVID‑19, gdy uwzględnimy, jak mocno dany kraj został dotknięty przez wirusa? Łącząc treść tweetów z danymi o rzeczywistej sytuacji pandemicznej, autorzy chcą uchwycić, co wiadomość naprawdę znaczy w szerszym, globalnym kontekście.

Od surowych tweetów do wstępnych ocen emocji

Naukowcy zaczęli od zebrania ponad czterdziestu tysięcy tweetów w języku angielskim o szczepieniach przeciw COVID‑19 opublikowanych wiosną 2021 r., w kluczowym okresie, gdy wiele krajów osiągało ważne kamienie milowe szczepień. Oczyścili dane, usuwając oznaczenia użytkowników i linki, które nie pomagają w ocenie tonu. Aby przypisać wstępny sentyment każdemu tweetowi, użyli nowoczesnego modelu językowego wyszkolonego specjalnie na treściach z Twittera, znanego jako Twitter‑roBERTa. Model ten dzieli tweety na trzy podstawowe kategorie: pozytywny, negatywny lub neutralny, opierając się wyłącznie na tekście. Autorzy nazywają tę pierwszą warstwę etykietowania „lokalnym sentymentem”, ponieważ ignoruje to, co dzieje się w reszcie świata.

Figure 1
Rysunek 1.

Dodanie rzeczywistej sytuacji pandemicznej

Następnie zespół zebrał dane pandemiczne na poziomie krajowym — liczby zakażeń, zgonów i liczebność populacji — dla dziesięciu krajów z Ameryki Północnej, Europy, Azji i Oceanii. Przeliczyli te liczby na pojedynczą „wartość nasilenia” dla każdego kraju, pokazując, jak bardzo był dotknięty w porównaniu z innymi w okresie badania. Tweet pochodzący z kraju o wysokich wskaźnikach zakażeń i zgonów jest więc interpretowany w zupełnie innym świetle niż identyczny tweet z kraju o łagodniejszych warunkach. Naukowcy następnie powiązali każdy tweet z wartością nasilenia kraju, z którego prawdopodobnie pochodził, używając samodzielnie podawanych lokalizacji użytkowników oraz starannie przygotowanych list miast i regionów do mapowania lokalizacji na kraje.

Przekształcanie lokalnych uczuć w globalne odcienie opinii

Mając jednocześnie tekst tweetu i kontekst kraju, autorzy zaprojektowali trzy metody, aby zmienić etykietę tweeta z prostego oznaczenia pozytywny/negatywny/neutralny w bogatszy „globalny sentyment”. Dwie pierwsze metody wykorzystują reguły probabilistyczne (twierdzenie Bayesa), aby mierzyć, jak często każdy typ sentymentu występuje w danym kraju lub w dwóch szerokich grupach krajów: tych w relatywnie „lepszej” kontra „gorszej” sytuacji pandemicznej. Tweet stojący w sprzeczności z dominującym nastrojem w swoim otoczeniu, na przykład rzadki pozytywny komentarz w kraju mocno dotkniętym pandemią, traktowany jest jako wyraz „wysokiej intensywności”, podczas gdy ten, który powiela powszechne przekonanie, jako „niskiej intensywności”. Metoda 2 dodatkowo rozróżnia etykiety „słabo” i „mocno” pozytywne lub negatywne, zależnie od tego, czy ton tweeta pasuje do sytuacji kraju czy jej zaprzecza.

Figure 2
Rysunek 2.

Sprytniejszy model do automatycznego uczenia się intensywności

Trzecia metoda stosuje bardziej zaawansowane podejście statystyczne zwane bayesowską wielopoziomową regresją porządkową. Zamiast polegać na stałych progach, model ten uczy się z samych danych, jak wyniki sentymentu na poziomie tweetu (pochodzące z prawdopodobieństw Twitter‑roBERTa) współdziałają z nasileniem pandemii w każdym kraju. Uwzględnia różnice między krajami, jednocześnie łącząc informacje pomiędzy nimi. Model następnie szacuje dla każdego tweeta nie tylko to, czy jest negatywny, neutralny czy pozytywny, ale także z jaką pewnością należy on do danej kategorii. Tweety, których oparte na modelu prawdopodobieństwa są wyższe niż typowe dla ich kategorii, są oznaczane jako „wysoka intensywność”; pozostałe jako „niska intensywność”. To tworzy niuansowe etykiety globalnego sentymentu, które odzwierciedlają zarówno język, jak i kontekst zdrowia publicznego.

Co wyniki znaczą dla zrozumienia nastrojów publicznych

Gdy autorzy użyli tych nowych globalnych etykiet sentymentu do trenowania powszechnie stosowanych klasyfikatorów uczenia maszynowego, odkryli, że niuansowe etykiety — szczególnie te wygenerowane przez zaawansowany model — pomagały klasyfikatorom nauczyć się dokładniejszych wzorców niż metody prostsze. W praktycznym wymiarze oznacza to, że agencje zdrowia publicznego, badacze i analitycy mediów społecznościowych mogą uzyskać ostrzejszy obraz tego, co ludzie naprawdę myślą o szczepionkach, patrząc na tweety przez pryzmat globalny, a nie tylko analizując same słowa. Dwie osoby mogą brzmieć równie sfrustrowane szczepieniami, ale jeśli jedna mieszka w kraju z poważnym wybuchem, a druga tam, gdzie sytuacja jest opanowana, ich przekazy mają inną wagę. Przechwytując te różnice w intensywności, badanie oferuje bardziej ugruntowany sposób monitorowania nastrojów publicznych i projektowania reakcji lepiej dopasowanych do rzeczywistości, z jaką mierzą się ludzie.

Cytowanie: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0

Słowa kluczowe: Szczepienia przeciw COVID-19, Sentyment na Twitterze, analiza mediów społecznościowych, komunikacja zdrowia publicznego, uczenie maszynowe