Clear Sky Science · zh

一种使用神经网络与变换器嵌入并采用类别加权的阿拉伯语假新闻检测算法系统

· 返回目录

为何识别网络上的虚假报道至关重要

在当今始终互联的世界里,一条戏剧性的阿拉伯语标题可以在几分钟内从一个鲜为人知的Facebook页面传播到数以百万计的手机上。其中一些故事是精心伪造的,可能煽动舆论、扭曲选举或播撒对机构的不信任。然而,大多数自动化的假新闻识别工具都是为英语构建的。本研究通过设计并测试一个高效系统来填补这一空白,该系统能够以接近人工事实核查者的准确度标记具有误导性的阿拉伯语新闻文章。

构建反映真实情况的阿拉伯语新闻图景

为反映在线信息的混乱现实,研究者首先汇集了一个大型混合语料库,包含2015年至2025年间发布的7,474篇阿拉伯语新闻文章。这些文本来自可信的新闻机构、未经核实的博客和社交媒体帖子,以及来源于知名英语假新闻数据集的翻译样本。每条样本均通过与官方来源和阿拉伯语事实核查平台的仔细交叉核对被标注为真实或虚假。子集由三位专家进行复核,他们之间的一致性较高,增强了标签可靠性的信心。最终的数据集反映了虚假故事实际上被真实报道所压倒的情况——这种类别不平衡常常使自动检测器陷入困境。

Figure 1
Figure 1.

教会机器真正“读懂”阿拉伯语

研究团队没有依赖简单的词频统计,而是转向了一类现代语言模型——变换器(Transformer),它能够从上下文中捕捉意义。他们使用了专门针对现代标准阿拉伯语训练的CAMeLBERT模型,作为一种更为精密的“阅读器”。每篇文章都经过专门的预处理管道,清除表情符号、链接和噪声字符,同时保留阿拉伯语中重要的语言细微差别。CAMeLBERT随后将每篇清理后的文章转换为密集的数值指纹,捕捉微妙的意义、风格和结构差异。这些指纹被输入到一个紧凑的深度神经网络中,网络学习区分真实与虚假新闻的模式。

解决真实与虚假样本的不平衡问题

一个关键挑战是数据集中真实新闻多于虚假新闻,这与日常生活中的情况一致。如果不处理,模型会采取保守策略,将大多数报道判断为真实,从而漏掉危险的虚假信息。许多先前研究尝试通过复制稀少的虚假样本、生成合成样本或丢弃部分真实文章来解决这一问题,但这些方法可能引入噪声或丢失有用信息。相反,本工作侧重于一种算法层面的解决方案——类别加权。在训练过程中,对模型在虚假文章上的错误施加更高的“代价”,而不是改变数据本身。这推动神经网络对少数类(虚假)给予更多关注,从而在真与假的判界上形成更平衡的决策。

Figure 2
Figure 2.

将系统付诸检验

研究者比较了多种方法:使用词频特征的传统机器学习模型、由不同阿拉伯语变换器模型提供输入的相同神经网络,以及将最佳变换器与各种平衡策略相结合的方案。CAMeLBERT在阿拉伯语变换器中表现最强,优于如AraBERT、MARBERTv2和AraELECTRA等替代模型。在与类别加权结合时,基于CAMeLBERT的系统能够以约95.5%的准确率对阿拉伯语新闻进行正确分类,F1分数(精确率与召回率的平衡)约为96.2%。同样重要的是,经调优的系统显著减少了最令人担忧的错误——将虚假故事误判为真实。为了打开“黑箱”,团队还应用了现代解释工具(LIME 和 SHAP),以揭示模型内部表示中哪些语言提示和模式倾向于将文章推向“虚假”或“真实”的判定。

对普通读者意味着什么

从普通读者的角度看,这项研究表明机器可以被训练成以令人惊讶的细腻方式“阅读”阿拉伯语新闻,识别经常将伪造帖子与专业报道区分开的微妙风格和语境线索。通过将针对现代标准阿拉伯语定制的语言模型与注重公平性的训练策略结合,作者提供了一个既准确又相对轻量的检测器——适合集成到事实核查平台、新闻编辑部和社交媒体监测工具中。尽管它不能取代人类判断,这一系统为自动化阿拉伯语事实核查奠定了坚实基础,有助于放缓有害虚假信息的传播并支持阿拉伯语世界更健康的信息生态。

引用: Saad, M., Abdelrazek, S. & Abdelmaksoud, I.R. An algorithmic system for arabic fake news detection using neural networks and transformer embeddings with class weighting. Sci Rep 16, 12226 (2026). https://doi.org/10.1038/s41598-026-45653-4

关键词: 阿拉伯语假新闻, 变换器模型, 神经网络, 类别不平衡, 事实核查系统