Clear Sky Science · ja
ウクライナに関する多言語ニュースデータセット(2022–2025):データ収集とドキュメンテーション
このニュース収集が重要である理由
ロシアの2022年の全面侵攻以降、戦争は地上だけでなく画面やソーシャルフィード上でも戦われてきました。世界中の人々が紛争について何を読むかは、彼らの理解、信頼する相手、支持する側面に影響を与えます。本稿は、研究者がこの情報の戦場を研究し、誤解を招く主張を見抜くためのより良いツールを構築できるよう設計された、2022年から2025年にかけてのウクライナ関連オンライン記事の大規模で体系的なコレクションを提示します。

戦時における真実の困難さ
著者らはまず、戦争がどのようにプロパガンダと虚偽の情報の波を引き起こしたかを概説します。ロシアの国営メディアやオンラインのネットワークは、ウクライナに“ネオナチ”がいるとする主張、秘密実験室、でっち上げの戦争犯罪など、反復的な主張を流してきました。同時に、ファクトチェックや学術研究は、特定の誤説を訂正できても、人々のより広範な政治的見解がしばしば変わらないことを示しています。東欧やそれ以外の地域での研究は、COVID-19に関する陰謀論への信奉が、主流メディアや政府を不信し代替的な情報空間を好む人々の間で、クレムリン寄りの戦争ナラティブへの信念と結びつくことが多いことを明らかにしています。
ニュースが公衆の理解を形作る仕方
戦争のニュース報道は地域によって大きく異なります。比較研究によれば、ウクライナや西側の媒体は人々の苦しみや抵抗を強調する傾向がある一方、ロシアのメディアは敵を化け物のように描き、自国の行為を正当化するように伝えます。アジアやグローバルサウスの一部では、報道が民間人よりも世界的な勢力争いやNATOの役割に焦点を当てることがあるため、地元の受け手が紛争や関係者をどう見るかに影響を与えます。こうした状況では、どのテーマが報道を支配しているか、物語が時間とともにどのように変化するかを理解するために、透明で共有可能なニュース記事のソースが不可欠になります。
共有可能な記事プールの構築
この必要性に応えるために、著者らは2022年から2025年に公開されたウクライナ関連のニュース記事120,617件から成る多言語データセットを作成しました。彼らは、対象期間の各日についてウェブサイトのアドレスを構築し、ニュースページをダウンロードし、記事の見出しと本文を抽出する自動化パイプラインを設計しました。記事が他言語で公開されている場合は、機械翻訳の段階でウクライナ語版を生成し、素材を比較しやすくしています。各項目はキーワード規則に基づいて大まかなテーマに割り当てられ(たとえば、ウクライナの指導者に関する記事か、ロシアの国内情勢に焦点を当てるか、国際的反応かなど)、最終的に各行が1件の記事を表す大きな表が作成されます。その表にはリンク、日付、原文、翻訳文(利用可能な場合)、およびおおまかなトピックラベルが含まれます。
データセットの構成
コレクションはウクライナの情報源と言語が多数を占めており、チームの作業の重点と戦争報道におけるウクライナ系媒体の中心性を反映しています。見出しや本文の大半はウクライナ語で、一部はロシア語、英語、いくつかのヨーロッパ言語で書かれています。記事の長さは短い更新から非常に長い分析記事まで幅がありますが、典型的なニュース記事は数千文字の範囲に収まります。最も多いのは、ロシア連邦の情報空間におけるウクライナの扱いに関する記事で、次いでウクライナの政治・軍事指導部に関する報道、ロシア自身の国内情勢に関する報告が続きます。データセットはシンプルなカンマ区切りファイルとして保存されており、特別なソフトウェアなしに一般的な分析ツールで読み込めるようになっています。

品質チェックと限界
このコレクションは完成された分析というより研究の基盤を目的としているため、著者らは慎重な技術的チェックを強調しています。読み込みできないウェブページや完全に重複する記事は削除しました。言語ラベルが妥当であるかスポットチェックで確認し、欠損値を点検し、機械翻訳されたテキストが完全であることを確認しました。一方で、トピックラベルはキーワードに基づく大まかな指標に過ぎず、各記事が「実際に」何を意味するかについての確定的な専門家判断ではないと強調しています。同様に、政治的に敏感な箇所で問題となり得る翻訳ミスの修正は行っていません。
これが未来に開くもの
非専門家にとっての主な要点は、本プロジェクトが近年のウクライナに関する報道がどのように書かれてきたかの公開可能で再利用可能な地図を提供することです。ジャーナリスト、社会科学者、計算機科学者は同じ共有された記事群を利用してメディアバイアスを研究したり、誤導的な物語の拡散を追跡したり、疑わしいコンテンツを検出する言語技術を訓練したりできます。収集プロセスを詳細に記録し、データとコードの両方を公開することで、著者らは情報戦に関する透明で再現可能な研究を支援し、最終的には危機時に社会が操作に耐える力を強化することを目指しています。
引用: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5
キーワード: ウクライナ戦争メディア, 偽情報, ニュースデータセット, 多言語ジャーナリズム, 情報戦