Clear Sky Science · it

Dataset di notizie multilingue sull’Ucraina (2022–2025): raccolta dati e documentazione

· Torna all'indice

Perché questa raccolta di notizie è importante

Dall’invasione su vasta scala della Russia in Ucraina nel 2022, la guerra si è combattuta non solo sul terreno, ma anche sugli schermi e nei feed social. Ciò che le persone nel mondo leggono sul conflitto plasma il modo in cui lo comprendono, chi ritengono affidabile e quale parte sostengono. Questo articolo presenta una vasta collezione accuratamente organizzata di articoli di notizie online sull’Ucraina dal 2022 al 2025, pensata per aiutare i ricercatori a studiare questo campo di battaglia informativo e a sviluppare strumenti migliori per individuare affermazioni fuorvianti.

Figure 1
Figure 1.

La sfida della verità in tempo di guerra

Gli autori iniziano delineando come la guerra abbia scatenato un’ondata di propaganda e di storie false. I media statali russi e le reti online hanno diffuso ricorrenti affermazioni su presunti “neonazisti” in Ucraina, laboratori segreti o crimini di guerra messi in scena. Parallelamente, fact-checker e studiosi hanno mostrato che anche quando le persone vengono corrette con successo su falsi specifici, le loro opinioni politiche più ampie spesso rimangono invariate. Studi in tutta l’Europa orientale e oltre rivelano che la credenza in teorie del complotto sul COVID-19 spesso convive con l’adesione a narrazioni filokremliniane sulla guerra, specialmente tra chi diffida dei media mainstream e dei governi e preferisce spazi informativi alternativi.

Come le notizie plasmano la comprensione pubblica

La copertura giornalistica della guerra appare molto diversa a seconda del luogo. Ricerche comparative hanno rilevato che i media ucraini e occidentali tendono a mettere in evidenza la sofferenza umana e la resistenza, mentre i media russi dipingono il nemico come mostruoso e le proprie azioni come giustificate. In parti dell’Asia e del Sud del mondo, la copertura può concentrarsi più sulle lotte di potere globali o sul ruolo della NATO che sui civili. Questi diversi punti di vista influenzano come il pubblico locale percepisce il conflitto e gli attori coinvolti. In questo contesto, disporre di una fonte trasparente e condivisa di articoli diventa essenziale per comprendere quali temi dominano la copertura e come le narrazioni cambiano nel tempo.

Costruire un archivio condiviso di articoli

Per rispondere a questa esigenza, gli autori hanno creato un dataset multilingue di 120.617 articoli di notizie relativi all’Ucraina, pubblicati tra il 2022 e il 2025. Hanno progettato una pipeline automatizzata che, per ogni giorno del periodo considerato, costruisce indirizzi di sito web, scarica le pagine di notizie ed estrae i titoli e i testi completi degli articoli. Quando gli articoli sono disponibili in altre lingue, un passaggio di traduzione automatica produce versioni in ucraino in modo che i materiali possano essere confrontati più facilmente. Ogni elemento viene poi assegnato a un tema generale usando regole basate su parole chiave (per esempio, se la storia si concentra sui leader ucraini, sulla situazione interna russa o sulle reazioni internazionali). Il risultato finale è una grande tabella in cui ogni riga rappresenta un articolo e include il link, la data, il testo originale, il testo tradotto quando disponibile e un’etichetta tematica approssimativa.

Com’è fatto il dataset

La raccolta è dominata da fonti e dalla lingua ucraina, riflettendo dove il team ha concentrato gli sforzi e la centralità degli organi d’informazione ucraini nella copertura della guerra. La maggior parte dei titoli e dei testi principali è in ucraino, con piccole quote in russo, inglese e in diverse lingue europee. La lunghezza degli articoli varia molto — da brevi aggiornamenti fino a pezzi analitici molto lunghi — sebbene le notizie tipiche rientrino nell’ordine di poche migliaia di caratteri. La quota maggiore di articoli riguarda come l’Ucraina appare nello spazio informativo della Federazione Russa, seguita dalla copertura della leadership politica e militare ucraina e dai resoconti sulla situazione interna russa. Il dataset è archiviato in un semplice file separato da virgole in modo da poter essere caricato con strumenti di analisi comuni senza software speciali.

Figure 2
Figure 2.

Verifiche di qualità e limiti

Poiché questa raccolta è pensata come base per la ricerca più che come analisi conclusiva, gli autori sottolineano controlli tecnici accurati. Hanno rimosso gli articoli le cui pagine web non potevano essere caricate o che erano duplicati esatti. Hanno verificato che le etichette linguistiche avessero senso attraverso controlli a campione, ispezionato i valori mancanti e assicurato che i testi tradotti automaticamente fossero completi. Allo stesso tempo, precisano che le etichette tematiche sono solo guide approssimative basate su parole chiave, non giudizi di esperti definitivi su ciò che ogni articolo “significa davvero”. Allo stesso modo, non hanno cercato di correggere eventuali errori di traduzione, che possono avere rilevanza in passaggi politicamente sensibili.

Cosa apre per il futuro

Per i non specialisti, la conclusione principale è che questo progetto fornisce una mappa pubblica e riutilizzabile di come le notizie sull’Ucraina sono state scritte durante alcuni degli anni più turbolenti della sua storia moderna. Giornalisti, scienziati sociali e informatici possono attingere allo stesso archivio condiviso di storie per studiare i bias mediatici, tracciare la diffusione di narrazioni fuorvianti o addestrare tecnologie linguistiche che aiutino a segnalare contenuti sospetti. Documentando in dettaglio il processo di raccolta e rendendo sia i dati sia il codice liberamente disponibili, gli autori mirano a sostenere lavori trasparenti e riproducibili sulla guerra dell’informazione e, in ultima istanza, a rafforzare la capacità della società di resistere alla manipolazione in tempi di crisi.

Citazione: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

Parole chiave: media guerra in Ucraina, disinformazione, dataset di notizie, giornalismo multilingue, guerra dell’informazione