Clear Sky Science · zh

一个用于 COVID 疫苗接种的全球推特情感分析模型

· 返回目录

为何推特上对疫苗的情绪很重要

在 COVID-19 大流行期间,政府依靠疫苗和公众合作来挽救生命。然而,全球各地的人们对疫苗接种运动的反应差异很大,常在社交媒体上表达他们的希望与恐惧。本研究超越简单的“正面”或“负面”推文标签,提出更深层的问题:在考虑到本国疫情受创程度后,人们关于 COVID-19 疫苗接种的评论会呈现怎样的面貌?通过将推文文本与现实世界的疫情数据相结合,作者旨在捕捉一条信息在更广泛全球背景下的真实含义。

从原始推文到初步情感判断

研究者首先收集了超过四万条 2021 年春季发布的关于 COVID-19 疫苗接种的英文推文,这一时期许多国家正达到重要的疫苗接种里程碑。他们通过去除用户标签和网页链接等不利于判断语气的内容来清洗数据。为了为每条推文分配初步情感,研究者使用了专门在推特内容上训练的现代语言模型 Twitter-roBERTa。该模型仅基于文本将推文划分为三类:正面、负面或中性。作者将这一层次的标注称为推文的“局部情感”,因为它并未考虑世界其他地区的情况。

Figure 1
Figure 1.

加入现实世界的疫情状况

接下来,团队收集了十个分布于北美、欧洲、亚洲和大洋洲国家的国家级 COVID-19 统计数据——确诊数、死亡数和人口数。他们将这些数字转换为每个国家的单一“严重度值”,以显示在研究期间该国相对于其他国家遭受的冲击程度。因此,来自疫情严重国家的推文与在疫情较轻国家中相同文字的推文会被以截然不同的视角解读。研究者随后将每条推文与其可能来源国的严重度值合并,利用用户自报的位置和精心整理的城市与地区列表将地点映射到国家。

将局部情绪转化为全球化的观点层次

在掌握推文文本与国家情境后,作者设计了三种方法,将每条推文从简单的正/负/中性标签细化为更丰富的“全球情感”。前两种方法使用概率规则(贝叶斯定理)来衡量某种情感在一个国家或两类广义国家组(相对疫情“良好”的国家与“糟糕”的国家)中的常见程度。与其背景主流情绪相悖的推文,例如在受重创国家中罕见的正面评论,会被视为“高强度”表达;而与普遍观点相呼应的推文则被视为“低强度”。方法 2 还根据推文语气是否符合或与国家情形相矛盾,将正面或负面标签区分为“弱”与“强”。

Figure 2
Figure 2.

一种更智能的模型以自动学习强度

第三种方法使用了一种更先进的统计方法,称为贝叶斯多层次序回归。该模型不依赖固定的阈值,而是从数据本身学习推文层面的情感分数(由 Twitter-roBERTa 的概率导出)如何与各国的疫情严重度相互作用。它在保留跨国信息汇总的同时考虑国家间的差异。然后,模型为每条推文估计其不仅是负面、中性或正面,还估计其属于该类别的置信度。模型概率高于该类别典型水平的推文被标记为“高强度”;其它的则标记为“低强度”。这就生成了反映语言与公共卫生情境的细致全球情感标签。

这些发现对理解公众情绪的意义

当作者用这些新的全球情感标签来训练常见的机器学习分类器时,他们发现细化后的标签——尤其是由高级模型产生的——帮助分类器比粗糙方法学到更准确的模式。在实际层面,这意味着公共卫生机构、研究人员和社交媒体分析师通过从全球视角而非孤立地阅读文字来观察推文,可以获得更清晰的公众疫苗态度图景。两个人听起来对疫苗同样感到沮丧,但若一个人生活在应对严重疫情爆发的国家,而另一个在疫情受控的地方,他们的信息所承载的分量便不同。通过捕捉这种强度差异,该研究为监测公众情绪并设计更符合民众实际处境的应对措施提供了更扎实的方法。

引用: Chakrabarty, D., Chatterjee, S. & Mukhopadhyay, A. A global twitter sentiment analysis model for COVID-vaccination. Sci Rep 16, 9005 (2026). https://doi.org/10.1038/s41598-026-38553-0

关键词: COVID-19 疫苗接种, Twitter 情感, 社交媒体分析, 公共卫生传播, 机器学习