Clear Sky Science · sv

Flerspråkig nyhetsdatamängd om Ukraina (2022–2025): datainsamling och dokumentation

· Tillbaka till index

Varför denna nyhetssamling är viktig

Sedan Rysslands fullskaliga invasion av Ukraina 2022 har kriget utkämpats inte bara på marken utan också på skärmar och i sociala flöden. Vad människor världen över läser om konflikten påverkar hur de förstår den, vem de litar på och vilken sida de stödjer. Denna artikel presenterar en stor, omsorgsfullt organiserad samling online-nyhetstexter om Ukraina från 2022 till 2025, avsedd att hjälpa forskare att studera detta informationsfält och bygga bättre verktyg för att upptäcka vilseledande påståenden.

Figure 1
Figure 1.

Sanningsutmaningen i krigstid

Författarna inleder med att beskriva hur kriget släppte loss en våg av propaganda och falska berättelser. Ryska statliga kanaler och nätverk på nätet har drivit återkommande påståenden om påstådda ”nazister” i Ukraina, hemliga laboratorier eller iscensatta krigsbrott. Samtidigt har faktagranskare och forskare visat att även när människor framgångsrikt rättas i enskilda myter, förblir deras bredare politiska uppfattningar ofta oförändrade. Studier i Östeuropa och bortom visar att tro på konspirationsteorier kring COVID-19 ofta går hand i hand med tro på pro-Kreml-narrativ om kriget, särskilt bland dem som misstror mainstream-media och regeringar och föredrar alternativa informationsrum.

Hur nyheter formar allmänhetens förståelse

Nyhetsbevakningen av kriget ser mycket olika ut beroende på var man befinner sig. Jämförande forskning har funnit att ukrainska och västerländska medier tenderar att lyfta fram mänskligt lidande och motstånd, medan rysk media skildrar fienden som monstruös och sina egna handlingar som berättigade. I delar av Asien och det globala södern kan bevakning istället fokusera mer på globala maktkamper eller NATO:s roll än på civila. Dessa olika vinklar påverkar hur lokala publiker ser konflikten och de inblandade aktörerna. Mot denna bakgrund blir en transparent, gemensamt tillgänglig källa av nyhetsartiklar väsentlig för att förstå vilka teman som dominerar bevakningen och hur narrativ skiftar över tid.

Att bygga en gemensam pool av nyhetsartiklar

För att möta detta behov skapade författarna en flerspråkig datamängd med 120 617 nyhetsartiklar relaterade till Ukraina, publicerade mellan 2022 och 2025. De utvecklade en automatiserad pipeline som för varje dag i den valda perioden konstruerar webbadresser, laddar ned nyhetssidor och extraherar artikelrubriker och fullständiga texter. När artiklar förekommer på andra språk producerar en maskinöversättningssteg ukrainska versioner så att material lättare kan jämföras. Varje post tilldelas sedan ett brett tema med hjälp av sökordsregler (till exempel om artikeln fokuserar på Ukrainas ledare, Rysslands inrikesläget eller internationella reaktioner). Slutresultatet är en stor tabell där varje rad representerar en artikel och innehåller dess länk, datum, originaltext, översatt text när sådan finns och en grov ämnesetikett.

Hur datamängden ser ut

Samlingen domineras av ukrainska källor och språk, vilket speglar var teamet koncentrerade sina insatser och ukrainas mediers centrala roll i att bevaka kriget. De flesta rubriker och huvudtexter är på ukrainska, med mindre andelar på ryska, engelska och flera europeiska språk. Artikellängder varierar kraftigt — från korta uppdateringar till mycket långa analytiska texter — även om typiska nyhetsartiklar ligger i spannet några tusen tecken. Den största andelen artiklar handlar om hur Ukraina framställs i informationsrummet i Ryska federationen, följt av bevakning av Ukrainas politiska och militära ledarskap samt rapporter om Rysslands eget inrikesläge. Datamängden lagras i en enkel kommaseparerad fil så att den kan laddas av vanliga analysverktyg utan särskild programvara.

Figure 2
Figure 2.

Kontroll av kvalitet och begränsningar

Då denna samling är avsedd som en forskningsgrund snarare än en färdig analys, betonar författarna noggranna tekniska kontroller. De tog bort artiklar vars webbsidor inte kunde laddas eller som var exakta dubbletter. De verifierade att språketiketter var rimliga vid stickprovskontroller, granskade saknade värden och säkerställde att maskinöversatta texter var fullständiga. Samtidigt poängterar de att ämnesetiketterna bara är grova vägledningar baserade på sökord, inte definitiva expertbedömningar av vad varje artikel ”verkligen” betyder. På samma sätt försökte de inte rätta eventuella översättningsfel, vilket kan vara betydelsefullt i politiskt känsliga avsnitt.

Vad detta öppnar för framtiden

För icke-specialister är huvudslutsatsen att detta projekt tillhandahåller en offentlig, återanvändbar karta över hur nyheter om Ukraina har rapporterats under några av dess mest turbulenta år i modern tid. Journalister, samhällsvetare och datavetare kan alla dra nytta av samma delade artikelpool för att studera mediebias, följa spridningen av vilseledande narrativ eller träna språkteknologier som hjälper till att flagga misstänkt innehåll. Genom att dokumentera insamlingsprocessen i detalj och göra både data och kod öppet tillgängliga, vill författarna stödja transparent, reproducerbar forskning om informationskrigföring och i förlängningen stärka samhällets förmåga att stå emot manipulation i kriser.

Citering: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

Nyckelord: Ukrainakrigets medier, desinformation, nyhetsdatamängd, flerspråkig journalistik, informationskrigföring