Clear Sky Science · fr
Jeu de données multilingue sur l’actualité ukrainienne (2022–2025) : collecte et documentation des données
Pourquoi cette collecte d’actualités est importante
Depuis l’invasion à grande échelle de l’Ukraine par la Russie en 2022, la guerre se mène non seulement sur le terrain mais aussi sur les écrans et dans les fils d’actualité. Ce que les gens lisent à propos du conflit façonne leur compréhension, leur confiance et le camp qu’ils soutiennent. Cet article présente une vaste collection, soigneusement organisée, d’articles d’actualité en ligne sur l’Ukraine de 2022 à 2025, conçue pour aider les chercheur·e·s à étudier ce champ d’information et à développer de meilleurs outils pour repérer les affirmations trompeuses.

Le défi de la vérité en temps de guerre
Les auteur·rice·s commencent par exposer comment la guerre a déclenché une vague de propagande et de fausses informations. Les médias d’État russes et des réseaux en ligne ont diffusé des allégations récurrentes sur de prétendus « néo-nazis » en Ukraine, des laboratoires secrets ou des crimes de guerre mis en scène. Parallèlement, les vérificateurs de faits et les chercheur·e·s montrent que même lorsque des personnes sont corrigées sur des mythes spécifiques, leurs opinions politiques plus larges restent souvent inchangées. Des études à travers l’Europe de l’Est et au-delà révèlent que la croyance aux théories du complot autour du COVID-19 va souvent de pair avec l’adhésion à des récits pro‑Kremlin sur la guerre, en particulier chez celles et ceux qui se méfient des médias traditionnels et des gouvernements et qui préfèrent des espaces d’information alternatifs.
Comment les médias façonnent la compréhension du public
La couverture médiatique de la guerre diffère beaucoup selon les lieux. Des recherches comparatives ont montré que les médias ukrainiens et occidentaux ont tendance à mettre en avant la souffrance humaine et la résistance, tandis que les médias russes présentent l’ennemi comme monstrueux et leurs propres actions comme légitimes. Dans certaines régions d’Asie et du Sud global, la couverture peut se concentrer davantage sur les luttes de puissance mondiale ou le rôle de l’OTAN que sur les civils. Ces angles différents influencent la façon dont les publics locaux perçoivent le conflit et les acteurs impliqués. Dans ce contexte, disposer d’une source transparente et partagée d’articles devient essentiel pour comprendre quels thèmes dominent la couverture et comment les récits évoluent dans le temps.
Constituer un réservoir partagé d’articles
Pour répondre à ce besoin, les auteur·rice·s ont créé un jeu de données multilingue de 120 617 articles de presse liés à l’Ukraine, publiés entre 2022 et 2025. Ils ont conçu un pipeline automatisé qui, pour chaque jour de la période choisie, construit des adresses de sites web, télécharge des pages d’actualité et extrait les titres et les textes complets des articles. Lorsque les articles existent en d’autres langues, une étape de traduction automatique produit des versions en ukrainien afin de faciliter la comparaison des contenus. Chaque élément est ensuite affecté à un thème large à l’aide de règles par mots‑clés (par exemple, si l’article porte sur les dirigeants ukrainiens, la situation intérieure russe ou les réactions internationales). Le résultat final est une grande table où chaque ligne représente un article et inclut son lien, sa date, le texte original, le texte traduit lorsqu’il est disponible et une étiquette de sujet approximative.
À quoi ressemble le jeu de données
La collection est dominée par des sources et une langue ukrainiennes, ce qui reflète l’endroit où l’équipe a concentré ses efforts et la centralité des médias ukrainiens dans la couverture du conflit. La plupart des titres et des textes principaux sont en ukrainien, avec de petites parts en russe, en anglais et dans plusieurs langues européennes. La longueur des articles varie largement — des brèves aux longs articles analytiques — bien que les articles de presse typiques se situent dans une fourchette de quelques milliers de caractères. La plus grande part des articles traite de la manière dont l’Ukraine apparaît dans l’espace informationnel de la Fédération de Russie, suivie de la couverture de la direction politique et militaire de l’Ukraine et des rapports sur la situation interne russe. Le jeu de données est stocké dans un fichier simple séparé par des virgules afin d’être chargé par des outils d’analyse courants sans logiciel spécial.

Vérification de la qualité et limites
Parce que cette collection est destinée à servir de base de recherche plutôt qu’à constituer une analyse définitive, les auteur·rice·s insistent sur des contrôles techniques minutieux. Ils ont supprimé les articles dont les pages web n’ont pas pu être chargées ou qui étaient des doublons exacts. Ils ont vérifié la cohérence des étiquettes de langue par contrôles ponctuels, inspecté les valeurs manquantes et veillé à ce que les textes traduits automatiquement soient complets. En même temps, ils soulignent que les étiquettes de sujet ne sont que des indications approximatives basées sur des mots‑clés, et non des jugements d’expert définitifs sur le « vrai » sens de chaque article. De même, ils n’ont pas cherché à corriger d’éventuelles erreurs de traduction, qui peuvent avoir de l’importance dans des passages politiquement sensibles.
Ce que cela ouvre pour l’avenir
Pour les non‑spécialistes, la conclusion principale est que ce projet fournit une carte publique et réutilisable de la manière dont l’actualité sur l’Ukraine a été rédigée pendant certaines des années les plus turbulentes de son histoire moderne. Journalistes, scientifiques sociaux et informaticien·ne·s peuvent puiser dans ce même réservoir partagé d’articles pour étudier les biais médiatiques, suivre la diffusion de récits trompeurs ou entraîner des technologies linguistiques qui aident à signaler les contenus suspects. En documentant en détail le processus de collecte et en rendant à la fois les données et le code librement disponibles, les auteur·rice·s visent à soutenir un travail transparent et reproductible sur la guerre de l’information et, en fin de compte, à renforcer la capacité de la société à résister à la manipulation en temps de crise.
Citation: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5
Mots-clés: médias guerre en Ukraine, désinformation, jeu de données d’actualités, journalisme multilingue, guerre de l’information