Clear Sky Science · pl

Wielojęzyczny zestaw danych wiadomości o Ukrainie (2022–2025): zbieranie danych i dokumentacja

· Powrót do spisu

Dlaczego ta kolekcja wiadomości ma znaczenie

Od czasu pełnoskalowej inwazji Rosji na Ukrainę w 2022 roku wojna toczy się nie tylko na ziemi, lecz także na ekranach i w kanałach społecznościowych. To, co ludzie na całym świecie czytają o konflikcie, kształtuje ich rozumienie sytuacji, zaufanie i sympatie wobec stron konfliktu. Niniejszy artykuł przedstawia dużą, starannie uporządkowaną kolekcję internetowych artykułów prasowych o Ukrainie z lat 2022–2025, zaprojektowaną tak, by pomóc badaczom badać to pole informacyjne i tworzyć lepsze narzędzia do wykrywania mylących twierdzeń.

Figure 1
Rysunek 1.

Problem prawdy w czasie wojny

Autorzy zaczynają od przedstawienia, jak wojna wywołała falę propagandy i fałszywych historii. Państwowe media rosyjskie i powiązane sieci internetowe rozpowszechniały powtarzające się twierdzenia o rzekomych „neonazistach” na Ukrainie, tajnych laboratoriach czy sfingowanych zbrodniach wojennych. Jednocześnie fact-checkerzy i badacze wykazali, że nawet gdy ludziom uda się skorygować konkretne mity, ich szersze poglądy polityczne często pozostają niezmienione. Badania w Europie Wschodniej i poza nią pokazują, że wiara w teorie spiskowe dotyczące COVID-19 często idzie w parze z wiarą w prorosyjskie narracje o wojnie, zwłaszcza wśród tych, którzy nie ufają mediom głównego nurtu i rządom oraz preferują alternatywne przestrzenie informacyjne.

Jak wiadomości kształtują zrozumienie publiczne

Relacjonowanie wojny wygląda bardzo różnie w zależności od miejsca. Badania porównawcze wykazały, że ukraińskie i zachodnie media zwykle podkreślają ludzkie cierpienie i opór, podczas gdy media rosyjskie przedstawiają przeciwnika jako monstrualnego, a własne działania jako usprawiedliwione. W częściach Azji i Globalnego Południa relacje mogą skupiać się bardziej na globalnych rozgrywkach o władzę lub roli NATO niż na losie cywilów. Te różne perspektywy wpływają na to, jak lokalne audytoria postrzegają konflikt i zaangażowane strony. W tym kontekście przejrzyste, wspólne źródło artykułów prasowych staje się niezbędne do zrozumienia, które tematy dominują w przekazie i jak narracje zmieniają się w czasie.

Budowanie wspólnej puli artykułów

Aby sprostać tej potrzebie, autorzy stworzyli wielojęzyczny zestaw danych zawierający 120 617 artykułów prasowych dotyczących Ukrainy, opublikowanych w latach 2022–2025. Zaprojektowali zautomatyzowany pipeline, który dla każdego dnia w badanym okresie generuje adresy stron, pobiera strony z wiadomościami i wyciąga nagłówki oraz pełne teksty artykułów. Gdy artykuły występują w innych językach, krok tłumaczenia maszynowego wytwarza wersje ukraińskie, aby ułatwić porównania. Każdy element jest następnie przypisywany do szerokiego tematu za pomocą reguł opartych na słowach kluczowych (na przykład, czy tekst koncentruje się na przywódcach Ukrainy, wewnętrznej sytuacji w Rosji czy reakcjach międzynarodowych). Końcowym wynikiem jest duża tabela, w której każdy wiersz reprezentuje pojedynczy artykuł i zawiera jego link, datę, tekst oryginalny, tekst przetłumaczony gdy dostępny oraz przybliżoną etykietę tematyczną.

Jak wygląda zestaw danych

Kolekcję dominują źródła i język ukraiński, co odzwierciedla skupienie zespołu i centralną rolę ukraińskich mediów w relacjonowaniu wojny. Większość nagłówków i głównych tekstów jest po ukraińsku, z mniejszym udziałem w języku rosyjskim, angielskim i kilku językach europejskich. Długość artykułów bardzo się różni — od krótkich aktualizacji po bardzo obszerne teksty analityczne — choć typowe relacje prasowe mieszczą się w kilku tysiącach znaków. Największy odsetek artykułów dotyczy tego, jak Ukraina pojawia się w przestrzeni informacyjnej Federacji Rosyjskiej, następnie relacje na temat ukraińskiego przywództwa politycznego i wojskowego oraz doniesienia o wewnętrznej sytuacji w Rosji. Zestaw danych przechowywany jest w prostym pliku rozdzielanym przecinkami, dzięki czemu można go wczytać za pomocą powszechnych narzędzi analitycznych bez specjalnego oprogramowania.

Figure 2
Rysunek 2.

Sprawdzanie jakości i ograniczenia

Ponieważ kolekcja ma służyć jako podstawa badań, a nie jako gotowa analiza, autorzy podkreślają staranne kontrole techniczne. Usunęli artykuły, których strony internetowe nie mogły zostać załadowane, oraz teksty będące dokładnymi duplikatami. Na podstawie losowych kontroli sprawdzili sensowność etykiet językowych, przejrzeli brakujące wartości i upewnili się, że teksty przetłumaczone maszynowo są kompletne. Jednocześnie zaznaczają, że etykiety tematyczne są jedynie przybliżonymi wskazówkami opartymi na słowach kluczowych, a nie definitywnymi ocenami eksperckimi dotyczącymi „rzeczywistego” sensu każdego artykułu. Podobnie nie podejmowali się korekty błędów tłumaczeń, które mogą mieć znaczenie w politycznie wrażliwych fragmentach.

Co to otwiera na przyszłość

Dla osób niebędących specjalistami kluczową konkluzją jest to, że projekt dostarcza publiczną, wielokrotnego użytku mapę tego, jak pisano o Ukrainie w jednych z najbardziej burzliwych lat współczesnej historii tego kraju. Dziennikarze, naukowcy społeczni i informatycy mogą korzystać z tej samej wspólnej puli tekstów, aby badać stronniczość mediów, śledzić rozprzestrzenianie się mylących narracji lub trenować technologie językowe pomagające wykrywać podejrzane treści. Poprzez szczegółowe udokumentowanie procesu zbierania oraz udostępnienie zarówno danych, jak i kodu, autorzy dążą do wspierania przejrzystych, replikowalnych badań nad wojną informacyjną i w efekcie wzmacniania zdolności społeczeństwa do przeciwstawiania się manipulacji w czasie kryzysu.

Cytowanie: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

Słowa kluczowe: media wojny na Ukrainie, dezinformacja, zestaw danych wiadomości, wielojęzyczne dziennikarstwo, wojna informacyjna