Clear Sky Science · es

Conjunto de datos multilingüe de noticias sobre Ucrania (2022–2025): recopilación de datos y documentación

· Volver al índice

Por qué importa esta colección de noticias

Desde la invasión a gran escala de Rusia en Ucrania en 2022, la guerra se ha librado no solo sobre el terreno sino también en pantallas y redes sociales. Lo que la gente de todo el mundo lee sobre el conflicto moldea cómo lo entiende, en quién confía y a qué bando apoya. Este artículo presenta una gran colección, cuidadosamente organizada, de noticias en línea sobre Ucrania entre 2022 y 2025, diseñada para ayudar a los investigadores a estudiar este campo de batalla informativo y a crear mejores herramientas para detectar afirmaciones engañosas.

Figure 1
Figure 1.

El desafío de la verdad en tiempos de guerra

Los autores comienzan exponiendo cómo la guerra desató una ola de propaganda y noticias falsas. Los medios estatales rusos y las redes en línea han difundido afirmaciones recurrentes sobre supuestos “neonazis” en Ucrania, laboratorios secretos o crímenes de guerra fingidos. Al mismo tiempo, verificadores de hechos y académicos han mostrado que, incluso cuando a las personas se les corrige con éxito en mitos concretos, sus opiniones políticas más amplias a menudo permanecen sin cambios. Estudios en Europa del Este y más allá revelan que la creencia en teorías conspirativas sobre la COVID-19 suele ir de la mano con la creencia en narrativas prorrusas sobre la guerra, especialmente entre quienes desconfían de los medios y gobiernos dominantes y prefieren espacios informativos alternativos.

Cómo las noticias conforman la comprensión pública

La cobertura informativa de la guerra se ve muy distinta según el lugar. Investigaciones comparativas han encontrado que los medios ucranianos y occidentales tienden a enfatizar el sufrimiento humano y la resistencia, mientras que los medios rusos retratan al enemigo como monstruoso y justifican sus propias acciones. En partes de Asia y el Sur Global, la cobertura puede centrarse más en luchas de poder globales o en el papel de la OTAN que en los civiles. Estos distintos ángulos influyen en cómo las audiencias locales perciben el conflicto y a los actores implicados. En ese contexto, disponer de una fuente transparente y compartida de artículos de noticias se vuelve esencial para entender qué temas dominan la cobertura y cómo cambian las narrativas con el tiempo.

Construir un fondo compartido de artículos de noticias

Para atender esta necesidad, los autores crearon un conjunto de datos multilingüe de 120.617 artículos de noticias relacionados con Ucrania, publicados entre 2022 y 2025. Diseñaron una canalización automatizada que, para cada día del periodo elegido, construye direcciones web, descarga páginas de noticias y extrae titulares y textos completos de los artículos. Cuando los artículos aparecen en otros idiomas, un paso de traducción automática produce versiones en ucraniano para que el material pueda compararse con mayor facilidad. A cada elemento se le asigna luego un tema amplio mediante reglas de palabras clave (por ejemplo, si la historia se centra en los dirigentes de Ucrania, la situación interna de Rusia o reacciones internacionales). El resultado final es una gran tabla donde cada fila representa un artículo e incluye su enlace, fecha, texto original, texto traducido cuando está disponible y una etiqueta temática aproximada.

Cómo es el conjunto de datos

La colección está dominada por fuentes y por el idioma ucraniano, lo que refleja dónde el equipo centró sus esfuerzos y la centralidad de los medios ucranianos en la cobertura del conflicto. La mayoría de los titulares y textos principales están en ucraniano, con pequeñas proporciones en ruso, inglés y varios idiomas europeos. La longitud de los artículos varía mucho —desde breves actualizaciones hasta piezas analíticas muy extensas— aunque las noticias típicas se sitúan en el orden de unos pocos miles de caracteres. La mayor parte de los artículos trata sobre cómo aparece Ucrania en el espacio informativo de la Federación Rusa, seguida por la cobertura del liderazgo político y militar de Ucrania y los informativos sobre la situación interna de Rusia. El conjunto de datos se almacena en un archivo sencillo separado por comas para que pueda cargarse con herramientas de análisis comunes sin software especial.

Figure 2
Figure 2.

Comprobación de calidad y límites

Dado que esta colección se concibe como una base para la investigación más que como un análisis finalizado, los autores subrayan comprobaciones técnicas cuidadosas. Eliminan artículos cuyas páginas web no pudieron cargarse o que eran duplicados exactos. Verificaron que las etiquetas de idioma tuvieran sentido mediante comprobaciones puntuales, inspeccionaron valores faltantes y aseguraron que los textos traducidos por máquina estuvieran completos. Al mismo tiempo, insisten en que las etiquetas temáticas son solo guías aproximadas basadas en palabras clave, no juicios expertos definitivos sobre lo que cada artículo “realmente” significa. Del mismo modo, no intentaron corregir posibles errores de traducción, que pueden ser relevantes en pasajes políticamente sensibles.

Qué abre esto para el futuro

Para los no especialistas, la conclusión clave es que este proyecto proporciona un mapa público y reutilizable de cómo se ha escrito sobre Ucrania durante algunos de los años más turbulentos de su historia moderna. Periodistas, científicos sociales e informáticos pueden recurrir al mismo fondo compartido de historias para estudiar sesgos mediáticos, rastrear la difusión de narrativas engañosas o entrenar tecnologías lingüísticas que ayuden a señalar contenido sospechoso. Al documentar en detalle el proceso de recopilación y hacer disponibles tanto los datos como el código de forma abierta, los autores pretenden apoyar trabajos transparentes y reproducibles sobre la guerra de la información y, en última instancia, fortalecer la capacidad de la sociedad para resistir la manipulación en tiempos de crisis.

Cita: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

Palabras clave: medios sobre la guerra de Ucrania, desinformación, conjunto de datos de noticias, periodismo multilingüe, guerra de la información