Clear Sky Science · tr

Ukrayna hakkında çok dilli haber veri seti (2022–2025): veri toplama ve belgelendirme

· Dizine geri dön

Bu haber derlemesi neden önemli

Rusya’nın 2022’deki kapsamlı işgalinden bu yana savaş sadece sahada değil, ekranlarda ve sosyal akışlarda da yürütüldü. Dünyanın farklı yerlerindeki insanların çatışmayla ilgili okudukları, onu nasıl anladıklarını, kime güvendiklerini ve hangi tarafı desteklediklerini şekillendiriyor. Bu makale, araştırmacıların bu bilgi alanını incelemesine ve yanıltıcı iddiaları tespit eden daha iyi araçlar geliştirmesine yardımcı olmak üzere 2022–2025 dönemine ait çevrimiçi Ukrayna haberlerinden oluşan büyük, dikkatle düzenlenmiş bir koleksiyonu sunuyor.

Figure 1
Figure 1.

Savaş zamanında gerçeğin zorluğu

Yazarlar önce savaşın bir propaganda ve sahte hikâyeler dalgasını nasıl serbest bıraktığını özetliyor. Rus devlet yayınları ve çevrimiçi ağlar, Ukrayna’da sözde “neo-Naziler”, gizli laboratuvarlar veya sahnelenmiş savaş suçları gibi tekrarlayan iddiaları yaydı. Aynı zamanda, doğrulayıcılar ve akademisyenler belirli mitler konusunda başarılı şekilde düzeltilseler bile insanların daha geniş siyasi görüşlerinin genellikle değişmeden kaldığını gösterdi. Doğu Avrupa ve ötesinde yapılan çalışmalar, COVID-19 hakkındaki komplo teorilerine inanmanın, özellikle ana akım medyaya ve hükümetlere güvenmeyen ve alternatif bilgi alanlarını tercih edenler arasında, Kremlin yanlısı savaş anlatılarına inanmayla sıkça aynı yerde görüldüğünü ortaya koyuyor.

Haberlerin kamu anlayışını şekillendirişi

Savaşa dair haber kapsamı bulunduğunuz yere göre çok farklı görünür. Karşılaştırmalı araştırmalar, Ukraynalı ve Batılı yayınların genellikle insan ıstırabını ve direnişi vurgularken, Rus medyasının düşmanı canavarlaştırıp kendi eylemlerini haklı gösterme eğiliminde olduğunu buldu. Asya ve Küresel Güney’in bazı kesimlerinde ise haberler sivillerden çok küresel güç mücadelelerine veya NATO’nun rolüne odaklanabilir. Bu farklı açılar, yerel izleyicilerin çatışmayı ve aktörleri nasıl gördüğünü etkiler. Bu bağlamda, hangi temaların kapsamı domine ettiğini ve anlatıların zaman içinde nasıl kaydığını anlamak için şeffaf, paylaşılabilir bir haber kaynağına sahip olmak hayati önem taşır.

Paylaşılan bir haber havuzu oluşturmak

Bu ihtiyacı karşılamak için yazarlar, 2022 ile 2025 arasında yayımlanmış Ukrayna ile ilgili 120.617 çok dilli haber makalesinden oluşan bir veri seti oluşturdu. Seçilen dönemdeki her gün için web adresleri oluşturup haber sayfalarını indiren ve başlıklarla tam metinleri çıkaran otomatik bir iş akışı tasarladılar. Makaleler diğer dillerde yayınlandığında, materyalin daha kolay karşılaştırılabilmesi için makine çevirisi adımı Ukraynaca versiyonlar üretiyor. Her öğe, anahtar sözcük kurallarına göre geniş bir temaya atanıyor (örneğin, hikâyenin Ukrayna liderlerine mi, Rusya’nın iç durumuna mı yoksa uluslararası tepkilere mi odaklandığı). Nihai sonuç, her satırın bir makaleyi temsil ettiği ve bağlantısını, tarihini, orijinal metnini, mevcutsa çevrilmiş metnini ve kabaca bir konu etiketini içeren büyük bir tablodur.

Veri seti nasıl görünüyor

Derleme, ekiplerin çalışmaya odaklandığı yerleri ve savaşın haberleştirilmesinde Ukraynalı yayınların merkeziliğini yansıtacak şekilde Ukrayna kaynakları ve dili tarafından domine ediliyor. Başlıkların ve ana metinlerin çoğu Ukraynaca; Rusça, İngilizce ve birkaç Avrupa dilinde daha küçük paylar bulunuyor. Makale uzunlukları kısa güncellemelerden çok uzun analitik parçalara kadar geniş ölçüde değişiyor; tipik haber hikâyeleri birkaç bin karakter aralığında yer alıyor. Makalelerin en büyük kısmı Ukrayna’nın Rusya Federasyonu bilgi alanında nasıl göründüğüyle ilgili; bunu Ukrayna’nın siyasi ve askeri liderliğine dair haberler ve Rusya’nın kendi iç durumu üzerine raporlar izliyor. Veri seti, özel yazılıma gerek kalmadan yaygın analiz araçlarıyla yüklenebilecek şekilde basit bir virgülle ayrılmış dosyada saklanıyor.

Figure 2
Figure 2.

Kalite kontrolü ve sınırlar

Bu koleksiyon tamamlanmış bir analizden çok bir araştırma temeli olarak tasarlandığı için yazarlar titiz teknik kontrollerin altını çiziyor. Web sayfaları yüklenemeyen veya birebir yinelenen makaleler kaldırıldı. Dil etiketlerinin yerinde olup olmadığı rastgele kontrollerle doğrulandı, eksik değerler incelendi ve makine çevirilerinin tam olduğundan emin olundu. Aynı zamanda, konu etiketlerinin anahtar kelimelere dayanan kabaca rehberler olduğuna, her makalenin “gerçekte” ne anlama geldiğine dair kesin uzman yargıları olmadığını vurguluyorlar. Benzer şekilde, politik açıdan hassas pasajlarda önemli olabilecek çeviri hatalarını düzeltmeye çalışmadılar.

Gelecek için ne açıyor

Uzman olmayanlar için temel çıkarım, bu projenin modern tarihinin en çalkantılı yıllarından bazılarında Ukrayna hakkında yazılan haberlerin kamusal, yeniden kullanılabilir bir haritasını sağlamasıdır. Gazeteciler, sosyal bilimciler ve bilgisayar bilimciler, medya önyargısını incelemek, yanıltıcı anlatıların yayılmasını izlemek veya şüpheli içeriği işaretleyen dil teknolojileri eğitmek için aynı ortak haber havuzundan yararlanabilir. Toplama sürecini ayrıntılı şekilde belgeleyip hem veriyi hem kodu açıkça erişilebilir kılarak yazarlar, bilgi savaşı üzerine şeffaf, yeniden üretilebilir çalışmaları desteklemeyi ve nihayetinde kriz zamanlarında manipülasyona karşı toplumun direncini güçlendirmeyi amaçlıyor.

Atıf: Lipianina-Honcharenko, K., Komar, M., Ihnatiev, I. et al. Multilingual news dataset about Ukraine (2022–2025): data collection and documentation. Sci Data 13, 701 (2026). https://doi.org/10.1038/s41597-026-07033-5

Anahtar kelimeler: Ukrayna savaşı medyası, dezenformasyon, haber veri seti, çok dilli gazetecilik, bilgi savaşı