Clear Sky Science · pt
Conjunto de dados multilíngue sobre notícias da Ucrânia (2022–2025): coleta de dados e documentação
Por que essa coletânea de notícias é importante
Desde a invasão em grande escala da Ucrânia pela Rússia, em 2022, a guerra tem sido travada não apenas no terreno, mas também em telas e nas redes sociais. O que as pessoas ao redor do mundo leem sobre o conflito molda sua compreensão, em quem confiam e qual lado apoiam. Este artigo apresenta uma grande e cuidadosamente organizada coleção de reportagens online sobre a Ucrânia de 2022 a 2025, projetada para ajudar pesquisadores a estudar este campo de batalha informacional e a desenvolver melhores ferramentas para identificar alegações enganosas.

O desafio da verdade em tempo de guerra
Os autores começam delineando como a guerra desencadeou uma onda de propaganda e notícias falsas. Veículos estatais russos e redes online impulsionaram afirmações recorrentes sobre supostos “neonazistas” na Ucrânia, laboratórios secretos ou crimes de guerra encenados. Ao mesmo tempo, verificadores de fatos e acadêmicos mostraram que, mesmo quando as pessoas são corrigidas com sucesso em mitos específicos, suas visões políticas mais amplas frequentemente permanecem inalteradas. Estudos na Europa Oriental e além revelam que a crença em teorias da conspiração sobre a COVID-19 frequentemente anda de mãos dadas com a crença em narrativas pró-Kremlin sobre a guerra, especialmente entre aqueles que desconfiam da mídia tradicional e dos governos e preferem espaços alternativos de informação.
Como as notícias moldam a compreensão pública
A cobertura do conflito varia muito conforme o lugar. Pesquisas comparativas mostram que veículos ucranianos e ocidentais tendem a destacar o sofrimento humano e a resistência, enquanto a mídia russa retrata o inimigo como monstruoso e suas próprias ações como justificadas. Em partes da Ásia e do Sul Global, a cobertura pode se concentrar mais nas disputas de poder global ou no papel da OTAN do que nos civis. Esses diferentes ângulos influenciam como audiências locais veem o conflito e os atores envolvidos. Nesse contexto, dispor de uma fonte transparente e compartilhada de artigos de notícias torna-se essencial para entender quais temas dominam a cobertura e como as narrativas mudam ao longo do tempo.
Construindo um repositório compartilhado de artigos
Para atender a essa necessidade, os autores criaram um conjunto de dados multilíngue com 120.617 artigos de notícias relacionados à Ucrânia, publicados entre 2022 e 2025. Eles conceberam um pipeline automatizado que, para cada dia do período escolhido, constrói endereços de sites, baixa páginas de notícias e extrai manchetes e textos completos dos artigos. Quando os artigos aparecem em outras línguas, uma etapa de tradução automática produz versões em ucraniano para que o material possa ser comparado mais facilmente. Cada item é então atribuído a um tema amplo usando regras de palavras-chave (por exemplo, se a reportagem foca nos líderes da Ucrânia, na situação interna da Rússia ou nas reações internacionais). O resultado final é uma grande tabela em que cada linha representa um artigo e inclui seu link, data, texto original, texto traduzido quando disponível e um rótulo de tema aproximado.
Como é o conjunto de dados
A coleção é dominada por fontes e pela língua ucraniana, refletindo onde a equipe concentrou seus esforços e a centralidade dos veículos ucranianos na cobertura da guerra. A maioria das manchetes e dos textos principais está em ucraniano, com pequenas parcelas em russo, inglês e várias línguas europeias. O tamanho dos artigos varia bastante — desde atualizações breves até longas peças analíticas — embora as notícias típicas fiquem na faixa de alguns milhares de caracteres. A maior parte dos artigos trata de como a Ucrânia aparece no espaço informacional da Federação Russa, seguida pela cobertura da liderança política e militar da Ucrânia e por reportagens sobre a própria situação interna da Rússia. O conjunto de dados é armazenado em um arquivo simples separado por vírgulas para que possa ser carregado por ferramentas de análise comuns sem software especial.

Verificando qualidade e limites
Como essa coleção se destina a servir de base para pesquisa e não a constituir uma análise finalizada, os autores enfatizam verificações técnicas cuidadosas. Eles removeram artigos cujas páginas web não puderam ser carregadas ou que eram duplicatas exatas. Verificaram se os rótulos de idioma faziam sentido em checagens pontuais, inspecionaram valores ausentes e asseguraram que os textos traduzidos por máquina estavam completos. Ao mesmo tempo, ressaltam que os rótulos de tema são apenas guias aproximados baseados em palavras-chave, não julgamentos definitivos de especialistas sobre o que cada artigo “realmente” significa. Da mesma forma, não tentaram corrigir eventuais erros de tradução, que podem importar em trechos politicamente sensíveis.
O que isso abre para o futuro
Para não especialistas, a principal conclusão é que este projeto oferece um mapa público e reutilizável de como as notícias sobre a Ucrânia foram escritas durante alguns dos anos mais turbulentos de sua história moderna. Jornalistas, cientistas sociais e cientistas da computação podem recorrer ao mesmo repositório compartilhado de reportagens para estudar vieses da mídia, rastrear a disseminação de narrativas enganosas ou treinar tecnologias de linguagem que ajudem a sinalizar conteúdo suspeito. Ao documentar o processo de coleta em detalhe e tornar tanto os dados quanto o código abertamente disponíveis, os autores buscam apoiar trabalhos transparentes e reprodutíveis sobre guerra de informação e, em última instância, fortalecer a capacidade da sociedade de resistir à manipulação em tempos de crise.
Citação: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5
Palavras-chave: mídia sobre a guerra na Ucrânia, desinformação, conjunto de dados de notícias, jornalismo multilíngue, guerra de informação