Clear Sky Science · nl

Meertalig nieuwsbestand over Oekraïne (2022–2025): gegevensverzameling en documentatie

· Terug naar het overzicht

Waarom deze nieuwscollectie ertoe doet

Sinds de grootschalige invasie van Oekraïne door Rusland in 2022 wordt de oorlog niet alleen op het slagveld uitgevochten, maar ook op schermen en in sociale feeds. Wat mensen wereldwijd over het conflict lezen, bepaalt hoe ze het begrijpen, wie ze vertrouwen en welke kant ze steunen. Dit artikel presenteert een grote, zorgvuldig georganiseerde verzameling online nieuwsberichten over Oekraïne van 2022 tot 2025, bedoeld om onderzoekers te helpen dit informatieveld te bestuderen en betere hulpmiddelen te ontwikkelen om misleidende beweringen te signaleren.

Figure 1
Figure 1.

De uitdaging van waarheid in oorlogstijd

De auteurs beginnen met het schetsen van hoe de oorlog een golf van propaganda en valse verhalen heeft losgemaakt. Russische staatsmedia en online netwerken hebben terugkerende beweringen verspreid over vermeende “neo-nazi’s” in Oekraïne, geheime laboratoria of geënsceneerde oorlogsmisdaden. Tegelijkertijd hebben factcheckers en wetenschappers aangetoond dat zelfs wanneer mensen op specifieke mythen juist worden gecorrigeerd, hun bredere politieke opvattingen vaak ongewijzigd blijven. Studies in Oost-Europa en daarbuiten laten zien dat geloof in complottheorieën over COVID-19 vaak gepaard gaat met geloof in pro-Kremlin-verhalen over de oorlog, vooral onder mensen die wantrouwig staan tegenover de reguliere media en regeringen en alternatieve informatiebronnen prefereren.

Hoe nieuws het publieke begrip vormgeeft

De berichtgeving over de oorlog verschilt sterk afhankelijk van waar je bent. Vergelijkend onderzoek heeft aangetoond dat Oekraïense en westerse media de nadruk leggen op menselijk lijden en verzet, terwijl Russische media de vijand als monsterachtig afschilderen en hun eigen optreden als gerechtvaardigd presenteren. In delen van Azië en het Globale Zuiden kan de aandacht meer liggen op wereldwijde machtsstrijd of de rol van de NAVO dan op burgers. Deze verschillende invalshoeken beïnvloeden hoe lokale publieken het conflict en de betrokken actoren zien. Tegen deze achtergrond wordt een transparante, gedeelde bron van nieuwsartikelen essentieel om te begrijpen welke thema’s de berichtgeving domineren en hoe narratieven in de loop van de tijd verschuiven.

Een gedeelde bron van nieuwsartikelen opbouwen

Om aan deze behoefte te voldoen, hebben de auteurs een meertalig dataset samengesteld van 120.617 nieuwsartikelen gerelateerd aan Oekraïne, gepubliceerd tussen 2022 en 2025. Ze ontwierpen een geautomatiseerde pijplijn die voor elke dag in de gekozen periode websidadressen samenstelt, nieuwspagina’s downloadt en koppen en volledige teksten van artikelen extraheert. Wanneer artikelen in andere talen verschijnen, produceert een machinevertalingsstap Oekraïense versies zodat materiaal gemakkelijker te vergelijken is. Elk item wordt vervolgens toegewezen aan een breed thema met behulp van trefwoordregels (bijvoorbeeld of het verhaal zich richt op Oekraïense leiders, de binnenlandse situatie in Rusland of internationale reacties). Het eindresultaat is een grote tabel waarin elke rij één artikel vertegenwoordigt en informatie bevat zoals de link, datum, oorspronkelijke tekst, vertaalde tekst indien beschikbaar en een globale themalabel.

Hoe het dataset eruitziet

De verzameling wordt gedomineerd door Oekraïense bronnen en taal, wat de focus van het team en de centrale rol van Oekraïense media in de berichtgeving weerspiegelt. De meeste koppen en hoofdteksten zijn in het Oekraïens, met kleinere aantallen in het Russisch, Engels en verschillende Europese talen. Artikellengtes variëren sterk — van korte updates tot zeer lange analytische stukken — hoewel typische nieuwsverhalen binnen enkele duizenden tekens vallen. Het grootste deel van de artikelen behandelt hoe Oekraïne verschijnt in de informatieruimte van de Russische Federatie, gevolgd door verslaggeving over de politieke en militaire leiding van Oekraïne en rapporten over de interne situatie in Rusland. Het dataset is opgeslagen in een eenvoudig door komma’s gescheiden bestand zodat het met gangbare analysetools kan worden geladen zonder speciale software.

Figure 2
Figure 2.

Kwaliteitscontroles en beperkingen

Omdat deze collectie bedoeld is als onderzoeksbasis in plaats van als afgeronde analyse, benadrukken de auteurs zorgvuldige technische controles. Ze verwijderden artikelen waarvan de webpagina’s niet konden worden geladen of die exacte duplicaten waren. Ze verifieerden via steekproeven dat taallabels zinvol waren, onderzochten ontbrekende waarden en zorgden ervoor dat machinevertaalde teksten compleet waren. Tegelijk benadrukken ze dat de themalabels slechts ruwe richtlijnen zijn op basis van trefwoorden, geen definitieve deskundige oordelen over wat elk artikel “echt” betekent. Evenzo hebben ze niet geprobeerd vertaalfouten te corrigeren, wat belangrijk kan zijn in politiek gevoelige passages.

Wat dit voor de toekomst mogelijk maakt

Voor niet-specialisten is de belangrijkste conclusie dat dit project een openbare, herbruikbare kaart biedt van hoe over Oekraïne is geschreven tijdens enkele van de meest turbulente jaren in de moderne geschiedenis van het land. Journalisten, sociale wetenschappers en computerwetenschappers kunnen allemaal uit dezelfde gedeelde verzameling verhalen putten om mediavooringenomenheid te bestuderen, de verspreiding van misleidende narratieven te volgen of taaltechnologieën te trainen die helpen verdachte inhoud te signaleren. Door het verzamelproces gedetailleerd te documenteren en zowel de gegevens als de code openlijk beschikbaar te maken, willen de auteurs transparant, reproduceerbaar onderzoek naar informatieoorlogvoering ondersteunen en uiteindelijk de samenleving beter wapenen tegen manipulatie in crisistijd.

Bronvermelding: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

Trefwoorden: Oekraïne oorlog media, desinformatie, nieuwsbestand, meertalige journalistiek, informatieoorlogvoering