Clear Sky Science · nl
Een wereldwijde Twitter-sentimentanalysismodel voor COVID-vaccinatie
Waarom gevoelens over vaccins op Twitter ertoe doen
Tijdens de COVID-19-pandemie steunden overheden op vaccins en publieke medewerking om levens te redden. Toch reageerden mensen wereldwijd zeer verschillend op vaccinatiecampagnes en uitten zij vaak hun hoop en angst op sociale media. Deze studie kijkt verder dan eenvoudige labels als "positief" of "negatief" voor tweets en stelt een dieperliggende vraag: hoe zien opmerkingen over COVID-19-vaccinatie eruit zodra we rekening houden met hoe hard het virus het eigen land heeft getroffen? Door tweettekst te combineren met reële pandemiegegevens proberen de auteurs vast te leggen wat een boodschap werkelijk betekent in een bredere mondiale context.
Van ruwe tweets naar eerste inschatting van gevoel
De onderzoekers begonnen met het verzamelen van meer dan veertigduizend Engelstalige tweets over COVID-19-vaccinatie, geplaatst in het voorjaar van 2021 — een cruciale periode waarin veel landen belangrijke vaccinatiemijlpalen bereikten. Ze maakten de data schoon door gebruikersvermeldingen en weblinks te verwijderen die niet helpen bij het inschatten van de toon. Om een eerste sentiment aan elke tweet toe te wijzen, gebruikten ze een modern taalmodel dat speciaal op Twitter-inhoud is getraind, bekend als Twitter-roBERTa. Dit model sorteert tweets in drie basiscategorieën: positief, negatief of neutraal, puur op basis van de tekst. De auteurs noemen deze eerste laag van etikettering het "lokale sentiment" van de tweet, omdat het negeert wat er in de rest van de wereld gebeurt.

De reële staat van de pandemie toevoegen
Vervolgens verzamelde het team COVID-19-statistieken op landniveau — aantal gevallen, sterfgevallen en bevolking — voor tien landen verdeeld over Noord-Amerika, Europa, Azië en Oceanië. Zij zetten deze cijfers om in een enkele "ernstwaarde" voor elk land, die aangeeft hoe zwaar het tijdens de studieperiode werd getroffen ten opzichte van de anderen. Een tweet uit een land met hoge aantallen gevallen en sterfgevallen wordt dus anders gelezen dan een identieke tweet uit een land met mildere omstandigheden. De onderzoekers koppelden elke tweet aan de ernstwaarde van het land waarvan deze waarschijnlijk afkomstig was, gebruikmakend van door gebruikers opgegeven locaties en zorgvuldig samengestelde lijsten van steden en regio's om locaties aan landen te relateren.
Lokale gevoelens omzetten in globale nuances van opinie
Met zowel tweettekst als landcontext in handen, ontwierpen de auteurs drie methoden om het label van elke tweet te verfijnen van een simpele positief/negatief/neutraal-tag naar een rijker "globaal sentiment." De eerste twee methoden gebruiken waarschijnlijkheidsregels (de stelling van Bayes) om te meten hoe vaak elk sentimenttype voorkomt binnen een land of binnen twee brede groepen landen: die in relatief "goede" versus "slechte" pandemische toestand. Een tweet die tegen de heersende stemming in zijn omgeving ingaat, zoals een zeldzame positieve opmerking in een zwaar getroffen land, wordt behandeld als een uiting van "hoge intensiteit", terwijl een tweet die een algemeen gedeelde opvatting weerspiegelt als "lage intensiteit" wordt aangemerkt. Methode 2 onderscheidt ook "zwak" en "sterk" positief of negatief, afhankelijk van of de toon van de tweet past bij of ingaat tegen de situatie in het land.

Een slimmer model om intensiteit automatisch te leren
De derde methode gebruikt een meer geavanceerde statistische benadering, genaamd Bayesiaanse multilevel ordinale regressie. In plaats van vaste drempels te hanteren, leert dit model uit de gegevens zelf hoe tweetniveau-sentimentscores (afgeleid van de Twitter-roBERTa-kansen) interacteren met de ernst van de pandemie in elk land. Het houdt rekening met verschillen tussen landen terwijl het toch informatie over landen heen bundelt. Het model schat vervolgens voor elke tweet niet alleen in of deze negatief, neutraal of positief is, maar ook hoe zeker deze classificatie is. Tweets waarvan de modelgebaseerde kansen hoger zijn dan gebruikelijk voor hun categorie worden geëtiketteerd als "hoge intensiteit"; andere als "lage intensiteit." Dit creëert genuanceerde globale sentimentlabels die zowel taal als context van de volksgezondheid weerspiegelen.
Wat de bevindingen betekenen voor het begrijpen van de publieke stemming
Toen de auteurs deze nieuwe globale sentimentlabels gebruikten om gangbare machine-learning-classifiers te trainen, ontdekten ze dat de genuanceerde labels — vooral die geproduceerd door het geavanceerde model — de classifiers hielpen om nauwkeurigere patronen te leren dan de grovere methoden. In praktische termen betekent dit dat publieke gezondheidsinstanties, onderzoekers en sociale-mediaspecialisten een scherper beeld kunnen krijgen van hoe mensen echt over vaccins denken door tweets door een mondiale lens te bekijken, in plaats van alleen de woorden in isolatie te lezen. Twee mensen kunnen even gefrustreerd klinken over vaccinatie, maar als de één in een land woont dat worstelt met een ernstige uitbraak en de ander in een gebied waar de situatie onder controle is, dragen hun boodschappen een ander gewicht. Door deze verschillen in intensiteit vast te leggen, biedt de studie een meer geijkt middel om publieke sentimenten te monitoren en reacties te ontwerpen die beter aansluiten bij de realiteit waarmee mensen worden geconfronteerd.
Bronvermelding: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0
Trefwoorden: COVID-19 vaccinatie, Twitter-sentiment, analyse van sociale media, publieke gezondheidscommunicatie, machine learning