Clear Sky Science · de
Ein globales Twitter-Stimmungsanalysemodell für COVID-Impfungen
Warum Gefühle zu Impfungen auf Twitter wichtig sind
Während der COVID-19-Pandemie setzten Regierungen auf Impfstoffe und auf das Mitwirken der Bevölkerung, um Leben zu retten. Weltweit reagierten die Menschen jedoch sehr unterschiedlich auf Impfkampagnen und äußerten ihre Hoffnungen und Ängste häufig in sozialen Medien. Diese Studie geht über einfache "positiv"- oder "negativ"-Labels von Tweets hinaus und stellt eine tiefere Frage: Wie sehen Kommentare zur COVID-19-Impfung aus, wenn man berücksichtigt, wie schwer das jeweilige Land von dem Virus getroffen wurde? Durch die Verknüpfung von Tweet-Texten mit realen Pandemiedaten wollen die Autoren erfassen, was eine Botschaft in ihrem weiteren globalen Kontext wirklich bedeutet.
Von rohen Tweets zu Erstbewertungen der Stimmung
Die Forschenden begannen mit der Sammlung von über 40.000 englischsprachigen Tweets zur COVID-19-Impfung, die im Frühjahr 2021 gepostet wurden — einer Schlüsselphase, in der viele Länder wichtige Impfmesspunkte erreichten. Sie bereinigten die Daten, indem sie Nutzertags und Weblinks entfernten, die für die Tonbeurteilung nicht hilfreich sind. Um jedem Tweet eine erste Stimmung zuzuschreiben, nutzten sie ein modernes Sprachmodell, das speziell auf Twitter-Inhalte trainiert wurde, bekannt als Twitter-roBERTa. Dieses Modell ordnet Tweets allein auf Grundlage des Textes in drei Grundkategorien ein: positiv, negativ oder neutral. Die Autoren bezeichnen diese erste Schicht der Kennzeichnung als die „lokale Stimmung“ des Tweets, weil sie außer Acht lässt, was sonst in der Welt geschieht.

Hinzufügen des realen Pandemie-Zustands
Als Nächstes sammelte das Team länderspezifische COVID-19-Statistiken — Fallzahlen, Todesfälle und Bevölkerungsgrößen — für zehn Länder in Nordamerika, Europa, Asien und Ozeanien. Sie wandelten diese Zahlen in einen einzigen „Schwerewert“ für jedes Land um, der zeigt, wie stark es im Vergleich zu den anderen während des Untersuchungszeitraums betroffen war. Ein Tweet aus einem Land mit hohen Fall- und Sterberaten wird somit in einem ganz anderen Licht gelesen als derselbe Tweet in einem Land mit milderen Bedingungen. Die Forschenden verbanden dann jeden Tweet mit dem Schwerewert des Landes, aus dem er wahrscheinlich stammte, wobei sie Selbstauskunftsangaben der Nutzer und sorgfältig gepflegte Listen von Städten und Regionen verwendeten, um Standorte Ländern zuzuordnen.
Lokale Gefühle in globale Meinungsnuancen verwandeln
Mit sowohl Tweet-Texten als auch Länderkontext entwarfen die Autoren drei Methoden, um die einfache positive/negative/neutral-Kennzeichnung eines Tweets in eine reichhaltigere „globale Stimmung“ zu überführen. Die ersten beiden Methoden verwenden Wahrscheinlichkeitsregeln (Bayes’ Theorem), um zu messen, wie verbreitet jede Stimmungsart innerhalb eines Landes oder innerhalb zweier breiter Ländergruppen ist: solche in relativ guter versus schlechter Pandemielage. Ein Tweet, der der vorherrschenden Stimmung in seinem Umfeld widerspricht — etwa ein seltener positiver Kommentar in einem schwer getroffenen Land — wird als Ausdruck mit „hoher Intensität“ behandelt, während ein Tweet, der eine verbreitete Ansicht widerspiegelt, als „geringe Intensität“ gilt. Methode 2 unterscheidet außerdem zwischen „schwach“ und „stark“ positiv oder negativ, je nachdem, ob der Ton des Tweets zur Lage des Landes passt oder ihr widerspricht.

Ein klügeres Modell, das Intensität automatisch lernt
Die dritte Methode nutzt einen fortgeschritteneren statistischen Ansatz, die bayesianische multilevel ordinale Regression. Anstatt sich auf feste Schwellenwerte zu stützen, lernt dieses Modell aus den Daten selbst, wie tweet-spezifische Stimmungswerte (abgeleitet aus den Twitter-roBERTa-Wahrscheinlichkeiten) mit der Schwere der Pandemie in jedem Land interagieren. Es berücksichtigt Unterschiede zwischen Ländern und bündelt zugleich Informationen über sie hinweg. Das Modell schätzt dann für jeden Tweet nicht nur, ob er negativ, neutral oder positiv ist, sondern auch, wie sicher er dieser Kategorie zugeordnet werden kann. Tweets, deren modellbasierte Wahrscheinlichkeiten höher sind als für ihre Kategorie typisch, werden als „hohe Intensität“ gekennzeichnet; andere als „geringe Intensität“. So entstehen nuancierte globale Stimmungslabel, die sowohl Sprache als auch Kontext der öffentlichen Gesundheit widerspiegeln.
Was die Ergebnisse für das Verständnis der öffentlichen Stimmung bedeuten
Als die Autoren diese neuen globalen Stimmungslabel verwendeten, um gängige Machine-Learning-Klassifikatoren zu trainieren, stellten sie fest, dass die nuancierten Labels — insbesondere die vom fortgeschrittenen Modell erzeugten — den Klassifikatoren halfen, genauere Muster zu erlernen als die gröberen Methoden. Praktisch bedeutet das, dass Gesundheitsbehörden, Forschende und Analytiker sozialer Medien ein schärferes Bild davon gewinnen können, wie Menschen wirklich über Impfstoffe denken, wenn sie Tweets durch eine globale Linse betrachten und nicht nur die Worte isoliert lesen. Zwei Menschen können gleichermaßen frustriert über Impfungen klingen, aber wenn der eine in einem Land mit schwerer Ausbruchsituation lebt und der andere in einem Ort, wo die Lage unter Kontrolle ist, tragen ihre Botschaften unterschiedliches Gewicht. Indem die Studie diese Intensitätsunterschiede erfasst, bietet sie eine fundiertere Methode, um öffentliche Stimmung zu überwachen und Reaktionen zu gestalten, die besser zu den realen Gegebenheiten passen, denen die Menschen gegenüberstehen.
Zitation: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0
Schlüsselwörter: COVID-19-Impfung, Twitter-Stimmung, Analyse sozialer Medien, öffentliche Gesundheitskommunikation, maschinelles Lernen