Clear Sky Science · zh

关于乌克兰的多语种新闻数据集(2022–2025):数据收集与文档说明

· 返回目录

为何这份新闻汇编重要

自2022年俄罗斯全面入侵乌克兰以来,这场战争不仅在地面上进行,也在屏幕和社交信息流中展开。全球读者对冲突的阅读塑造了他们的理解、信任对象以及支持立场。本文展示了一套有条理的大型在线新闻文章集合,涵盖2022至2025年间关于乌克兰的报道,旨在帮助研究者研究这一信息战场并构建更好的工具以识别误导性声明。

Figure 1
Figure 1.

战时真相的挑战

作者首先概述了战争如何催生了一波宣传与虚假报道。俄罗斯国家媒体和在线网络反复传播有关乌克兰所谓“新纳粹”、秘密实验室或伪造战争罪行的论调。与此同时,事实核查者和学者表明,即便人们在具体谣言上被成功纠正,他们更广泛的政治观点往往仍保持不变。对东欧及更广地区的研究显示,对COVID-19阴谋论的信奉常与对亲克里姆林宫战争叙事的认同并存,尤其是在不信任主流媒体与政府、并倾向于替代信息空间的人群中。

新闻如何塑造公众认知

对战争的新闻报道在不同地区差异很大。比较研究发现,乌克兰和西方媒体倾向于凸显人道苦难与抵抗,而俄罗斯媒体则把敌人描绘为怪物,并将自身行动合理化。在亚洲和全球南方的部分地区,报道可能更多聚焦于全球权力斗争或北约的角色,而非平民。这些不同角度影响当地受众对冲突及相关行动者的看法。在此背景下,拥有一个透明且可共享的新闻文章来源对于理解哪些主题主导报道以及叙事如何随时间变化至关重要。

构建共享的新闻文章库

为满足这一需求,作者创建了一个包含120,617篇与乌克兰相关的多语种新闻文章的数据集,时间范围为2022至2025年。他们设计了一个自动化流程:对所选期间的每一天构建网站地址、下载新闻页面并提取文章标题与全文。当文章以其他语言出现时,会经过机器翻译步骤生成乌克兰语版本,以便更容易进行比较。随后,每条目使用关键词规则被分配到广泛主题(例如,报道是否关注乌克兰领导人、俄罗斯国内情况或国际反应)。最终结果是一张大型表格,每行代表一篇文章,包含其链接、日期、原文、可用时的译文以及粗略的主题标签。

数据集的样貌

该集合以乌克兰来源和乌克兰语为主,反映了团队的工作重心以及乌克兰媒体在报道战争中的核心地位。大多数标题和正文为乌克兰语,少部分为俄语、英语和若干欧洲语言。文章长度差异较大——从简短更新到很长的分析文章皆有——但典型新闻报道通常为几千字符的范围。最大部分的文章涉及乌克兰在俄罗斯信息空间中的呈现,其次是关于乌克兰政治与军事领导层的报道以及对俄罗斯国内状况的报道。数据集以简单的逗号分隔文件形式存储,便于常见分析工具载入,无需特殊软件。

Figure 2
Figure 2.

质量检查与局限

鉴于此集合旨在作为研究基础而非最终分析,作者强调了细致的技术检查。他们剔除了无法加载网页的文章或完全重复的条目。通过抽查验证了语言标签的合理性,检查了缺失值,并确保机器翻译文本的完整性。同时,他们指出主题标签只是基于关键词的粗略指南,并非对每篇文章“真实”含义的权威专家判断。同样,他们并未尝试纠正任何翻译错误,而这些错误在政治敏感段落中可能具有影响。

对未来的意义

对非专业读者而言,关键结论是该项目提供了一张公开且可重复使用的地图,展示在其现代史上最动荡的几年里有关乌克兰的新闻如何被书写。记者、社会科学家与计算机科学家都可以利用这同一共享的文章库来研究媒体偏见、追踪误导性叙事的传播,或训练能够标注可疑内容的语言技术。通过详尽记录收集过程并公开数据与代码,作者旨在支持关于信息战的透明、可复现研究,并最终增强社会在危机时期抵御操控的能力。

引用: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

关键词: 乌克兰战争媒体, 虚假信息, 新闻数据集, 多语种新闻学, 信息战