Clear Sky Science · zh

ChunkyBERT:一种用于多类新闻媒体政治偏见检测的新方法

· 返回目录

为何新闻中的隐性倾向至关重要

人们每天在浏览政治头条时,往往未意识到措辞和选题如何悄然影响他们的看法。本研究介绍了ChunkyBERT,一种旨在识别冗长新闻文章是偏左、居中还是偏右的计算模型,它利用全文而非少数人工挑选的信号。其目标是帮助读者、记者与监督机构更清晰地看见现代数字媒体中的偏见。

政治倾向如何塑造我们所读到的内容

新闻机构不仅通过所报道的内容影响舆论,还通过选择忽略的部分、事件的框架以及使用的情绪化措辞来施加影响。在在线平台时代,这种影响可能加深分裂、助长回音室效应并传播误导信息。早期的计算工具尝试通过统计褒贬词或追踪特定术语出现频率来衡量这种倾向。尽管有用,但这些方法在处理语境(如讽刺或微妙的框架)时力有不逮,且常常需要专家大量的人工设定。

从人工线索到全文阅读

近期的语言技术进展使模型能够直接从原始文本中学习含义。基于神经网络和变换器(transformer)的系统,如BERT,能够捕捉词语在句内及跨段落间的相互影响。许多以往研究将这些工具用于仇恨言论、假新闻或情感检测,也有一些尝试从短标题或推文估计政治倾向。然而,冗长的政治文章仍然是一个挑战,因为标准模型对一次能处理的文本长度有限,而且偏见的线索可能散布在整篇报道中,而不是集中在一句精彩引述里。

Figure 1. 读取整篇政治文章并将其归入左倾、居中或右倾组的系统。
Figure 1. 读取整篇政治文章并将其归入左倾、居中或右倾组的系统。

将长文拆分为更易处理的片段

ChunkyBERT先将每篇冗长文章切成若干等长的小片段,称为chunks(块)。这些块并不对齐于句子或段落,这让处理过程对计算机而言简单且可预测。随后每个块被送入预训练的语言模型,该模型将词语转换为在语境中捕捉其含义的数值模式。第二个变换器层进一步精炼这些模式,注意力机制(attention)则让系统在不显山露水的情况下突出那些最能揭示政治倾向的词句,同时弱化中性背景文本的影响。

将故事重新拼接起来

在对每个块进行摘要后,ChunkyBERT将这些块的摘要平均合成为文章的单一整体指纹。该指纹再进入最终的决策层,用以在左、居中或右三类之间做出选择。研究者在超过37,000篇带有已知政治标签的新闻文章(主要来自美国来源)上对系统进行了训练和测试。他们将ChunkyBERT与更传统的机器学习方法以及其他神经模型进行了比较,这些模型包括基于循环网络和时序卷积的模型,并测试了是否采用分块和注意力机制。

Figure 2. 将长文拆分为更小的片段,分别分析后合并以判断其政治倾向。
Figure 2. 将长文拆分为更小的片段,分别分析后合并以判断其政治倾向。

系统的性能如何

实验表明,ChunkyBERT在验证集上的分类准确率约为86%,并在一种常用的区分度量上取得了较高分数,显示其能较好地区分各类别。它在识别明显的左倾或右倾文章方面表现尤其出色,而中立文章有时会被误判为某一方,这反映了中立文本语调更为混合的特性。消融研究(即关闭模型部分组件)显示,长文分块与变换器层对于达到高性能至关重要。该系统在同一数据集上也优于早期的偏见检测方法。

这对新闻读者意味着什么

简而言之,ChunkyBERT表现得像一名细致而不知疲倦的读者,扫描整篇政治报道并评估其在政治光谱上的位置。它并不消除新闻中的偏见,也不判定哪些观点是正确的,但可以帮助标注那些可能被忽略的倾向。经过改进并适配其他语言与地区,类似工具可用于媒体监测、课堂讨论和数字素养平台,帮助公众更清晰地看见信息在到达屏幕前是如何被塑造的。

引用: Loiya, D., Kulal, S.S., Reddy, M.S.M. et al. ChunkyBERT: a novel technique for multiclass political bias detection in news media. Sci Rep 16, 15323 (2026). https://doi.org/10.1038/s41598-026-46646-z

关键词: 政治媒体偏见, 新闻分类, 变换器模型, BERT, 数字素养