Clear Sky Science · fr

Un modèle mondial d’analyse de sentiment sur Twitter pour la vaccination contre la COVID

2026-02-13 · Retour à l’index

Pourquoi les ressentis sur les vaccins sur Twitter comptent

Pendant la pandémie de COVID-19, les gouvernements ont compté sur les vaccins et la coopération du public pour sauver des vies. Pourtant, les réactions aux campagnes de vaccination ont été très diverses selon les pays, les gens exprimant souvent leurs espoirs et leurs craintes sur les réseaux sociaux. Cette étude dépasse les simples étiquettes « positive » ou « négative » appliquées aux tweets et pose une question plus profonde : à quoi ressemblent les commentaires sur la vaccination contre la COVID-19 une fois que l’on tient compte de l’ampleur de la crise dans le pays d’origine ? En combinant le texte des tweets avec des données réelles de la pandémie, les auteurs cherchent à saisir ce qu’un message signifie réellement dans son contexte mondial.

Des tweets bruts aux premiers ressentis

Les chercheurs ont commencé par collecter plus de quarante mille tweets en anglais sur la vaccination contre la COVID-19 publiés au printemps 2021, une période clé où de nombreux pays franchissaient des étapes importantes en matière de vaccination. Ils ont nettoyé les données en supprimant les mentions d’utilisateurs et les liens web qui n’aident pas à juger le ton. Pour attribuer un sentiment initial à chaque tweet, ils ont utilisé un modèle de langage moderne spécialement entraîné sur le contenu de Twitter, connu sous le nom de Twitter-roBERTa. Ce modèle classe les tweets en trois catégories de base : positif, négatif ou neutre, uniquement en se basant sur le texte. Les auteurs qualifient cette première couche d’étiquetage de « sentiment local » du tweet, car elle ignore ce qui se passe dans le reste du monde.

Ajout de l’état réel de la pandémie

Ensuite, l’équipe a rassemblé des statistiques nationales sur la COVID-19 — nombre de cas, décès et population — pour dix pays répartis en Amérique du Nord, Europe, Asie et Océanie. Ils ont converti ces chiffres en une « valeur de sévérité » unique pour chaque pays, montrant à quel point il avait été touché relativement aux autres pendant la période étudiée. Un tweet provenant d’un pays avec des taux élevés de cas et de décès est donc lu très différemment d’un tweet identique venant d’un pays où la situation est plus bénigne. Les chercheurs ont ensuite associé chaque tweet à la valeur de sévérité du pays d’où il provenait probablement, en utilisant les localisations auto-déclarées des utilisateurs et des listes soigneusement constituées de villes et de régions pour mapper les localisations aux pays.

Transformer les ressentis locaux en nuances d’opinion globales

Disposant à la fois du texte des tweets et du contexte national, les auteurs ont conçu trois méthodes pour affiner l’étiquette de chaque tweet, passant d’un simple tag positif/négatif/neutre à un « sentiment global » plus riche. Les deux premières méthodes utilisent des règles de probabilité (théorème de Bayes) pour mesurer la prévalence de chaque type de sentiment au sein d’un pays ou de deux grands groupes de pays : ceux en condition pandémique relativement « bonne » versus « mauvaise ». Un tweet qui va à l’encontre de l’humeur dominante dans son contexte, comme un commentaire positif rare dans un pays fortement touché, est traité comme une expression d’« haute intensité », tandis qu’un tweet qui reflète une opinion commune est traité comme de « faible intensité ». La méthode 2 distingue également des labels « faiblement » et « fortement » positifs ou négatifs, selon que le ton du tweet s’aligne ou contredit la situation du pays.

Un modèle plus fin pour apprendre l’intensité automatiquement

La troisième méthode utilise une approche statistique plus avancée appelée régression ordinal multiniveau bayésienne. Plutôt que de s’appuyer sur des seuils fixes, ce modèle apprend, à partir des données elles-mêmes, comment les scores de sentiment au niveau du tweet (dérivés des probabilités de Twitter-roBERTa) interagissent avec la sévérité de la pandémie dans chaque pays. Il tient compte des différences entre pays tout en mutualisant l’information entre eux. Le modèle estime alors, pour chaque tweet, non seulement s’il est négatif, neutre ou positif, mais aussi avec quelle confiance il appartient à cette catégorie. Les tweets dont les probabilités issues du modèle sont supérieures à la norme pour leur catégorie sont étiquetés « haute intensité » ; les autres sont marqués « faible intensité ». Cela crée des étiquettes de sentiment global nuancées qui reflètent à la fois la langue et le contexte de santé publique.

Ce que les résultats impliquent pour la compréhension de l’humeur publique

Lorsque les auteurs ont utilisé ces nouvelles étiquettes de sentiment global pour entraîner des classificateurs d’apprentissage automatique courants, ils ont constaté que les labels nuancés — en particulier ceux produits par le modèle avancé — permettaient aux classificateurs d’apprendre des schémas plus précis que les méthodes plus grossières. Concrètement, cela signifie que les agences de santé publique, les chercheurs et les analystes des réseaux sociaux peuvent obtenir une image plus précise de ce que les gens ressentent réellement à propos des vaccins en regardant les tweets à travers une lentille globale, et non en se contentant de lire les mots isolément. Deux personnes peuvent paraître également frustrées par la vaccination, mais si l’une vit dans un pays confronté à une grave flambée et l’autre dans un lieu où la situation est maîtrisée, leurs messages n’ont pas le même poids. En capturant ces différences d’intensité, l’étude propose une façon plus ancrée de surveiller le sentiment public et de concevoir des réponses mieux adaptées aux réalités rencontrées par les populations.

Citation: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0

Mots-clés: Vaccination COVID-19, Sentiment sur Twitter, Analyse des réseaux sociaux, Communication en santé publique, Apprentissage automatique