Clear Sky Science · pl
Globalny model analizy sentymentu na Twitterze dotyczący szczepień przeciw COVID
Dlaczego uczucia wobec szczepionek na Twitterze mają znaczenie
W czasie pandemii COVID-19 rządy polegały na szczepionkach i współpracy społeczeństwa, by ratować życie. Jednak ludzie na całym świecie reagowali na kampanie szczepień bardzo różnie, często ujawniając swoje nadzieje i obawy w mediach społecznościowych. To badanie wykracza poza proste etykiety „pozytywny” lub „negatywny” na tweetach i stawia głębsze pytanie: jak wyglądają komentarze o szczepieniach przeciw COVID‑19, gdy uwzględnimy, jak mocno dany kraj został dotknięty przez wirusa? Łącząc treść tweetów z danymi o rzeczywistej sytuacji pandemicznej, autorzy chcą uchwycić, co wiadomość naprawdę znaczy w szerszym, globalnym kontekście.
Od surowych tweetów do wstępnych ocen emocji
Naukowcy zaczęli od zebrania ponad czterdziestu tysięcy tweetów w języku angielskim o szczepieniach przeciw COVID‑19 opublikowanych wiosną 2021 r., w kluczowym okresie, gdy wiele krajów osiągało ważne kamienie milowe szczepień. Oczyścili dane, usuwając oznaczenia użytkowników i linki, które nie pomagają w ocenie tonu. Aby przypisać wstępny sentyment każdemu tweetowi, użyli nowoczesnego modelu językowego wyszkolonego specjalnie na treściach z Twittera, znanego jako Twitter‑roBERTa. Model ten dzieli tweety na trzy podstawowe kategorie: pozytywny, negatywny lub neutralny, opierając się wyłącznie na tekście. Autorzy nazywają tę pierwszą warstwę etykietowania „lokalnym sentymentem”, ponieważ ignoruje to, co dzieje się w reszcie świata.

Dodanie rzeczywistej sytuacji pandemicznej
Następnie zespół zebrał dane pandemiczne na poziomie krajowym — liczby zakażeń, zgonów i liczebność populacji — dla dziesięciu krajów z Ameryki Północnej, Europy, Azji i Oceanii. Przeliczyli te liczby na pojedynczą „wartość nasilenia” dla każdego kraju, pokazując, jak bardzo był dotknięty w porównaniu z innymi w okresie badania. Tweet pochodzący z kraju o wysokich wskaźnikach zakażeń i zgonów jest więc interpretowany w zupełnie innym świetle niż identyczny tweet z kraju o łagodniejszych warunkach. Naukowcy następnie powiązali każdy tweet z wartością nasilenia kraju, z którego prawdopodobnie pochodził, używając samodzielnie podawanych lokalizacji użytkowników oraz starannie przygotowanych list miast i regionów do mapowania lokalizacji na kraje.
Przekształcanie lokalnych uczuć w globalne odcienie opinii
Mając jednocześnie tekst tweetu i kontekst kraju, autorzy zaprojektowali trzy metody, aby zmienić etykietę tweeta z prostego oznaczenia pozytywny/negatywny/neutralny w bogatszy „globalny sentyment”. Dwie pierwsze metody wykorzystują reguły probabilistyczne (twierdzenie Bayesa), aby mierzyć, jak często każdy typ sentymentu występuje w danym kraju lub w dwóch szerokich grupach krajów: tych w relatywnie „lepszej” kontra „gorszej” sytuacji pandemicznej. Tweet stojący w sprzeczności z dominującym nastrojem w swoim otoczeniu, na przykład rzadki pozytywny komentarz w kraju mocno dotkniętym pandemią, traktowany jest jako wyraz „wysokiej intensywności”, podczas gdy ten, który powiela powszechne przekonanie, jako „niskiej intensywności”. Metoda 2 dodatkowo rozróżnia etykiety „słabo” i „mocno” pozytywne lub negatywne, zależnie od tego, czy ton tweeta pasuje do sytuacji kraju czy jej zaprzecza.

Sprytniejszy model do automatycznego uczenia się intensywności
Trzecia metoda stosuje bardziej zaawansowane podejście statystyczne zwane bayesowską wielopoziomową regresją porządkową. Zamiast polegać na stałych progach, model ten uczy się z samych danych, jak wyniki sentymentu na poziomie tweetu (pochodzące z prawdopodobieństw Twitter‑roBERTa) współdziałają z nasileniem pandemii w każdym kraju. Uwzględnia różnice między krajami, jednocześnie łącząc informacje pomiędzy nimi. Model następnie szacuje dla każdego tweeta nie tylko to, czy jest negatywny, neutralny czy pozytywny, ale także z jaką pewnością należy on do danej kategorii. Tweety, których oparte na modelu prawdopodobieństwa są wyższe niż typowe dla ich kategorii, są oznaczane jako „wysoka intensywność”; pozostałe jako „niska intensywność”. To tworzy niuansowe etykiety globalnego sentymentu, które odzwierciedlają zarówno język, jak i kontekst zdrowia publicznego.
Co wyniki znaczą dla zrozumienia nastrojów publicznych
Gdy autorzy użyli tych nowych globalnych etykiet sentymentu do trenowania powszechnie stosowanych klasyfikatorów uczenia maszynowego, odkryli, że niuansowe etykiety — szczególnie te wygenerowane przez zaawansowany model — pomagały klasyfikatorom nauczyć się dokładniejszych wzorców niż metody prostsze. W praktycznym wymiarze oznacza to, że agencje zdrowia publicznego, badacze i analitycy mediów społecznościowych mogą uzyskać ostrzejszy obraz tego, co ludzie naprawdę myślą o szczepionkach, patrząc na tweety przez pryzmat globalny, a nie tylko analizując same słowa. Dwie osoby mogą brzmieć równie sfrustrowane szczepieniami, ale jeśli jedna mieszka w kraju z poważnym wybuchem, a druga tam, gdzie sytuacja jest opanowana, ich przekazy mają inną wagę. Przechwytując te różnice w intensywności, badanie oferuje bardziej ugruntowany sposób monitorowania nastrojów publicznych i projektowania reakcji lepiej dopasowanych do rzeczywistości, z jaką mierzą się ludzie.
Cytowanie: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0
Słowa kluczowe: Szczepienia przeciw COVID-19, Sentyment na Twitterze, analiza mediów społecznościowych, komunikacja zdrowia publicznego, uczenie maszynowe