Clear Sky Science · de
Mehrsprachiger Nachrichtendatensatz über die Ukraine (2022–2025): Datenerhebung und Dokumentation
Warum diese Nachrichtensammlung wichtig ist
Seit Russlands Großinvasion in die Ukraine 2022 wird der Krieg nicht nur auf dem Boden, sondern auch auf Bildschirmen und in sozialen Feeds geführt. Was Menschen weltweit über den Konflikt lesen, prägt ihr Verständnis, ihr Vertrauen und welche Seite sie unterstützen. Dieser Artikel stellt eine große, sorgfältig organisierte Sammlung von Online-Nachrichtenartikeln über die Ukraine von 2022 bis 2025 vor, die Forschenden helfen soll, dieses Informationsschlachtfeld zu untersuchen und bessere Werkzeuge zur Erkennung irreführender Behauptungen zu entwickeln.

Die Herausforderung der Wahrheit in Kriegszeiten
Die Autorinnen und Autoren beginnen mit einer Darstellung, wie der Krieg eine Welle von Propaganda und Falschmeldungen ausgelöst hat. Russische Staatsmedien und Online-Netzwerke verbreiten wiederkehrende Behauptungen über angebliche „Neonazis“ in der Ukraine, geheime Labore oder inszenierte Kriegsverbrechen. Gleichzeitig haben Faktenprüfer und Wissenschaftler gezeigt, dass selbst wenn Menschen gezielt über spezifische Mythen aufgeklärt werden, sich ihre grundsätzlichen politischen Einstellungen oft nicht ändern. Studien in Osteuropa und darüber hinaus zeigen, dass der Glaube an Verschwörungstheorien zu COVID-19 häufig mit Zustimmung zu pro-kremlischen Narrativen über den Krieg einhergeht, insbesondere bei Menschen, die Mainstream-Medien und Regierungen misstrauen und alternative Informationsräume bevorzugen.
Wie Nachrichten das öffentliche Verständnis formen
Die Berichterstattung über den Krieg sieht stark unterschiedlich aus, je nachdem, wo man sich befindet. Vergleichende Untersuchungen haben ergeben, dass ukrainische und westliche Medien tendenziell menschliches Leid und Widerstand hervorheben, während russische Medien den Gegner als monströs darstellen und die eigenen Handlungen rechtfertigen. In Teilen Asiens und des Globalen Südens kann die Berichterstattung stärker auf globale Machtkonflikte oder die Rolle der NATO fokussieren als auf Zivilisten. Diese unterschiedlichen Perspektiven beeinflussen, wie lokale Zielgruppen den Konflikt und die beteiligten Akteure sehen. Vor diesem Hintergrund wird eine transparente, gemeinsame Quelle von Nachrichtenartikeln essenziell, um zu verstehen, welche Themen die Berichterstattung dominieren und wie sich Narrative im Zeitverlauf verschieben.
Aufbau eines gemeinsamen Pools von Nachrichtenartikeln
Um diesem Bedarf zu begegnen, erstellten die Autorinnen und Autoren einen mehrsprachigen Datensatz mit 120.617 Nachrichtenartikeln zur Ukraine, veröffentlicht zwischen 2022 und 2025. Sie entwickelten eine automatisierte Pipeline, die für jeden Tag des gewählten Zeitraums Webadressen konstruiert, Nachrichtenseiten herunterlädt und Schlagzeilen sowie Volltexte extrahiert. Wenn Artikel in anderen Sprachen vorliegen, erzeugt ein maschineller Übersetzungsschritt ukrainische Versionen, damit Materialien leichter vergleichbar sind. Jeder Eintrag wird dann anhand von Schlüsselwortregeln einem breiten Thema zugewiesen (zum Beispiel, ob die Story die Führung der Ukraine, die innenpolitische Lage Russlands oder internationale Reaktionen thematisiert). Das Endergebnis ist eine große Tabelle, in der jede Zeile einen Artikel repräsentiert und dessen Link, Datum, Originaltext, übersetzten Text (wenn vorhanden) und ein grobes Themenlabel enthält.
Wie der Datensatz aussieht
Die Sammlung wird von ukrainischen Quellen und der ukrainischen Sprache dominiert, was die Fokussierung des Teams und die zentrale Rolle ukrainischer Medien in der Kriegsberichterstattung widerspiegelt. Die meisten Schlagzeilen und Haupttexte sind auf Ukrainisch, mit kleineren Anteilen in Russisch, Englisch und mehreren europäischen Sprachen. Die Länge der Artikel variiert stark – von kurzen Meldungen bis zu sehr langen analytischen Stücken – wobei typische Nachrichtenartikel im Bereich einiger Tausend Zeichen liegen. Der größte Anteil der Artikel behandelt, wie die Ukraine im Informationsraum der Russischen Föderation erscheint, gefolgt von Berichten über die politische und militärische Führung der Ukraine sowie über Russlands innere Lage. Der Datensatz wird in einer einfachen durch Kommas getrennten Datei gespeichert, sodass er mit gängigen Analysetools ohne Spezialsoftware geladen werden kann.

Qualitätskontrollen und Grenzen
Da diese Sammlung als Forschungsgrundlage und nicht als fertige Analyse gedacht ist, betonen die Autorinnen und Autoren sorgfältige technische Kontrollen. Sie entfernten Artikel, deren Webseiten nicht geladen werden konnten oder die exakte Duplikate waren. Sie überprüften, ob die Sprachkennzeichnungen bei Stichproben sinnvoll waren, untersuchten fehlende Werte und stellten sicher, dass maschinell übersetzte Texte vollständig sind. Gleichzeitig betonen sie, dass die Themenlabels nur grobe Hinweise auf Basis von Schlüsselwörtern sind und keine endgültigen Expertenurteile darüber darstellen, was jeder Artikel „wirklich“ aussagt. Ebenso haben sie keine Übersetzungsfehler zu korrigieren versucht, die in politisch sensiblen Passagen relevant sein könnten.
Was das für die Zukunft eröffnet
Für Nicht-Spezialisten ist die wichtigste Erkenntnis, dass dieses Projekt eine öffentliche, wiederverwendbare Landkarte darüber liefert, wie über die Ukraine in einigen der turbulentesten Jahre ihrer modernen Geschichte berichtet wurde. Journalistinnen und Journalisten, Sozialwissenschaftlerinnen und -wissenschaftler sowie Informatikerinnen und Informatiker können auf denselben gemeinsamen Fundus an Artikeln zurückgreifen, um Medienschieflagen zu untersuchen, die Verbreitung irreführender Narrative zu verfolgen oder Sprachtechnologien zu trainieren, die verdächtige Inhalte kennzeichnen helfen. Indem sie den Sammelprozess detailliert dokumentieren und sowohl die Daten als auch den Code offen zugänglich machen, wollen die Autorinnen und Autoren transparente, reproduzierbare Arbeit zum Informationskrieg unterstützen und letztlich die Fähigkeit der Gesellschaft stärken, Manipulationen in Krisenzeiten zu widerstehen.
Zitation: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5
Schlüsselwörter: Ukraine-Kriegsmedien, Desinformation, Nachrichtendatensatz, mehrsprachiger Journalismus, Informationskrieg