Clear Sky Science · tr
PreprintToPaper veri kümesi: bioRxiv ön baskılarını dergi yayınlarıyla bağlamak
Neden erken araştırma hepimiz için önemlidir
Bilimsel bir keşif parlak bir dergide yayımlanmadan çok önce, genellikle çalışmanın erken, ücretsiz paylaşılan bir versiyonu olan “ön baskı” olarak ortaya çıkar. COVID‑19 pandemi döneminde bu ön baskılar haber başlıklarını, kamu tartışmalarını ve hatta sağlık politikalarını şekillendirdi. Yine de hangi erken çalışmaların daha sonra resmi dergi makalelerine dönüştüğünü ve hangilerinin dönmediğini izlemek şaşırtıcı derecede zor oldu. Bu makale, bioRxiv sunucusundaki yaşam bilimleri ön baskılarını nihai dergi yayınlarıyla eşleştiren, büyük ve titizlikle doğrulanmış bir harita olan PreprintToPaper veri kümesini sunuyor; böylece halkın, gazetecilerin ve araştırmacıların erken bulguların bilimsel sistem içinde nasıl yol aldığına daha net bakmasını sağlıyor.

Taslaktan makaleye giden yolun izlenmesi
Yazarlar, yaşam bilimleri araştırmacılarının ön baskılarını yayınladığı önemli bir çevrim içi sunucu olan bioRxiv’e odaklandı. COVID‑19 pandemisi öncesi 2016–2018 dönemi ve pandeminin yoğun yayımlama dönemini kapsayan 2020–2022 dönemi olmak üzere iki ana zaman aralığından 145.517 ön baskı hakkında bilgi topladılar. Her ön baskı için başlık, özet, yazarlar, kurumlar, konu alanı, lisans ve gönderim tarihleri gibi ayrıntıları kaydettiler. Ardından dergi makalelerinin merkezi kaydı olan Crossref’ten yayımlanmış makalelere ilişkin eşleşen bilgileri —dergi adları, yayın tarihleri ve tam yazar listeleri— almak için yararlandılar. Bu kaynakları birleştirerek, bir çalışmanın ilk kamuya görünüşünden bilimsel bir dergideki son biçimine kadar izleyen zengin ve birleşik bir kayıt oluşturdular.
Ön baskıları açık gruplara ayırmak
Bu büyük koleksiyonu anlamlandırmak için ekip her ön baskıyı üç gruptan birine ayırdı. “Yayımlanmış” ön baskıların bioRxiv üzerinde dergi makalesine açık bir dijital bağlantısı vardı. “Yalnızca Ön Baskı” öğeleri sunucuya yüklendi ancak başka bir yerde yayımlandığına dair bir işaret göstermiyordu. En ilginç grup olan “Gri Bölge”, dergide yayımlanmış gibi görünen ancak bioRxiv üzerinde resmi bir bağlantısı olmayan vakaları içeriyor. Ön baskıların zaman içinde nasıl değiştiğini yakalamak için araştırmacılar ayrıca özgün bir sürümü ve en az bir sonraki güncellemesi olan ön baskıların her mevcut sürümünü listeleyen ayrı bir sürüm-geçmişi dosyası da oluşturdular. Bu, başlıkların, yazar listelerinin ve diğer ayrıntıların ilk taslak ile son ön baskı sürümü arasındaki evrimini incelemeye olanak veriyor.
Gizli eşleşmeleri tespit etmek ve el ile doğrulamak
Aslında yayımlanmış birçok ön baskı, bioRxiv üzerinde düzgün bir bağlantı almıyor ve bu da bilimsel çıktıyı izlemeye çalışanlar için kör noktalar oluşturuyor. Bu eksik bağlantıları ortaya çıkarmak için yazarlar ön baskı başlıklarını ve yazar listelerini Crossref’in dergi kayıtlarıyla karşılaştırdı. İki başlığın ne kadar yakın eşleştiğini ölçmek için 0 ile 1 arasında bir benzerlik skoru kullandılar; potansiyel Gri Bölge bağlantıları için en az 0,75 skor gerekiyordu. Ardından bu adayları yazar temelli ölçütlerle hassaslaştırdılar: yazar sayılarındaki farklar ve isimlerin görünürdeki benzerliği gibi. Bu otomatik kuralların güvenilir olup olmadığını test etmek için iki insan anotatör 299 sınır vakayı elle inceledi. Onların kararları güçlü biçimde uyuştu ve bir istatistiksel model, yazar listeleri iyi eşleştiğinde söz konusu bağlantının büyük olasılıkla gerçek olduğunu gösterdi.

Sayılar bilimsel çıktıyı ne anlatıyor
Tamamlanmış veri kümesi, ön baskı yapma ve yayımlama örüntülerinin pandemi öncesi ve sırasında nasıl değiştiğini gösteriyor. Genel olarak, açıkça yayımlanmış 90.000’in üzerinde ön baskı, yalnızca sunucuda kaldığı görünen 35.000’den fazla ve dergi makalesine bağlantının dedektiflik gerektirdiği yaklaşık 19.000 Gri Bölge vakası içeriyor. Sadece resmi olarak bağlantılı “Yayımlanmış” grup sayıldığında, zaman içinde çok daha küçük bir ön baskı payının dergi makalelerine dönüştüğü izlenimi oluşuyor. Ancak güçlü yazar benzerliğine sahip olası Gri Bölge eşleşmeleri dahil edildiğinde, yayımlanma oranlarındaki düşüş çok daha az dramatik oluyor. Bu durum, altyapıdaki eksik bağlantıların bilimsel ortamın nasıl değiştiği konusunda bizi yanıltabileceğini gösteriyor.
Bu kaynağın uzman olmayanlar için de yararlı olmasının nedeni
Uzman olmayanlar için ana mesaj, erken bilimsel sonuçların bir kara kutuya kaybolmadığıdır. PreprintToPaper veri kümesi sayesinde hangi hızlı yayınlanan bulguların sonunda hakem değerlendirmesinden sağ çıktığını, bunun ne kadar sürdüğünü ve hangi tür çalışmaların ön baskı aşamasından çıkmadığını görmek mümkün hale geliyor. Politika yapıcılar bu bilgiyi açık-bilim uygulamalarının ne kadar iyi çalıştığını değerlendirmek için kullanabilir; gazeteciler belirli bir sonucun ne kadar sağlam olduğunu daha iyi ölçebilir; araştırmacılar da çok sayıda makaleyi süzüp özetleyen araçlar geliştirebilir. Kısacası bu veri kümesi, erken araştırma akışının kaotik selini, fikirlerin ilk gönderimden cilalanmış yayına nasıl ilerlediğinin daha izlenebilir, hesap verebilir bir kaydına dönüştürüyor.
Atıf: Badalova, F., Sienkiewicz, J. & Mayr, P. PreprintToPaper dataset: connecting bioRxiv preprints with journal publications. Sci Data 13, 301 (2026). https://doi.org/10.1038/s41597-026-06867-3
Anahtar kelimeler: ön baskılar, bilimsel yayımlama, açık bilim, COVID-19 araştırması, bibliyometri