Clear Sky Science · sv
PreprintToPaper-datasetet: kopplar bioRxiv-preprintar till tidskriftspubliceringar
Varför tidig forskning spelar roll för oss alla
Långt innan en vetenskaplig upptäckt dyker upp i en glansig tidskrift visar den sig ofta som ett ”preprint” – en tidig, fritt delad version av arbetet. Under COVID‑19-pandemin formade dessa preprintar nyhetsrubriker, offentliga debatter och till och med hälsopolitik. Ändå har det varit förvånansvärt svårt att följa vilka tidiga studier som senare blev formella tidskriftsartiklar och vilka som aldrig gjorde det. Denna artikel presenterar PreprintToPaper-datasetet, en stor, noggrant kontrollerad karta som länkar life-science-preprintar på bioRxiv till deras slutliga tidskriftspubliceringar, vilket ger allmänheten, journalister och forskare en tydligare bild av hur tidiga fynd rör sig genom det vetenskapliga systemet.

Följa resan från utkast till artikel
Författarna fokuserade på bioRxiv, en viktig online-server där life-science-forskare lägger upp preprintar. De samlade information om 145 517 preprintar från två centrala tidsfönster: 2016–2018, före COVID‑19-pandemin, och 2020–2022, under pandemins intensiva publiceringstryck. För varje preprint registrerade de uppgifter som titel, abstrakt, författare, institutioner, ämnesområde, licens och insändningsdatum. De använde sedan Crossref, ett centralt register för tidskriftsartiklar, för att hämta matchande information om publicerade artiklar: tidskriftsnamn, publiceringsdatum och fullständiga författarlistor. Genom att kombinera dessa källor byggde de en rik, förenad post som följer en studie från dess första offentliga framträdande som preprint till dess slutliga form i en vetenskaplig tidskrift.
Sortera preprintar i tydliga grupper
För att göra denna stora samling begriplig sorterade teamet varje preprint i en av tre grupper. ”Publicerade” preprintar hade en tydlig digital länk från bioRxiv till en tidskriftsartikel. ”Endast preprint” var poster som fanns på servern men som inte visade tecken på att ha publicerats någon annanstans. Den mest intressanta gruppen, kallad ”Gråzonen”, innehåller fall som ser ut att kunna ha publicerats i en tidskrift men saknar en officiell länk på bioRxiv. För att fånga hur preprintar förändras över tid skapade forskarna också en separat versionshistorikfil som listar varje tillgänglig version för preprintar som hade en originalversion och åtminstone en senare uppdatering. Detta gör det möjligt för andra att studera hur titlar, författarlistor och andra detaljer utvecklas mellan första utkastet och sista preprintversionen.
Hitta dolda matchningar och granska dem manuellt
Många preprintar som faktiskt är publicerade får aldrig en korrekt länk tillbaka på bioRxiv, vilket skapar blinda fläckar för den som försöker kartlägga vetenskaplig produktion. För att avslöja dessa saknade kopplingar jämförde författarna preprinttitlar och författarlistor med Crossrefs tidskriftsregister. De använde en likhetspoäng mellan 0 och 1 för att mäta hur väl två titlar matchade; potentiella Gråzons-länkar krävde en poäng på minst 0,75. De förfinade sedan dessa kandidater med mått baserade på författare: hur olika antalen författare var och hur likartade namnen verkade. För att testa om dessa automatiska regler var pålitliga granskade två mänskliga annotatörer manuellt 299 gränsfall. Deras bedömningar stämde väl överens, och en statistisk modell visade att när författarlistorna matchade väl var en antagen länk mycket sannolik att vara äkta.

Vad siffrorna avslöjar om vetenskaplig produktion
Det färdiga datasetet visar hur mönstren för preprinting och publicering förändrades före och under pandemin. Sammanlagt innehåller det över 90 000 tydligt publicerade preprintar, mer än 35 000 som verkar förbli endast på servern, och omkring 19 000 Gråzons-fall där kopplingen till en tidskriftsartikel krävde detektivarbete. När endast den officiellt länkade ”Publicerade”-gruppen räknas verkar det som att en mycket mindre andel preprintar över tid övergår till tidskriftsartiklar. Men när sannolika Gråzons-matchningar — de med stark författarlikhet — inkluderas, blir nedgången i publiceringsfrekvensen mycket mindre dramatisk. Detta tyder på att saknade länkar i underliggande infrastruktur kan vilseleda oss om hur det vetenskapliga landskapet förändras.
Varför denna resurs är användbar även för icke-specialister
För icke-specialister är huvudbudskapet att tidiga vetenskapliga resultat inte bara försvinner in i en svart låda. Med PreprintToPaper-datasetet blir det möjligt att se vilka snabbrörliga fynd som så småningom överlever peer review, hur lång tid den resan tar och vilka typer av studier som aldrig lämnar preprintstadiet. Beslutsfattare kan använda denna information för att bedöma hur väl öppna vetenskapspraktiker fungerar; journalister kan bättre avgöra hur robust ett visst resultat är; och forskare kan bygga verktyg som sållar och sammanfattar ett överväldigande flöde av artiklar. Kort sagt förvandlar detta dataset en kaotisk ström av tidig forskning till en mer spårbar, ansvarsskyldig redogörelse för hur idéer rör sig från första publicering till bearbetad publicering.
Citering: Badalova, F., Sienkiewicz, J. & Mayr, P. PreprintToPaper dataset: connecting bioRxiv preprints with journal publications. Sci Data 13, 301 (2026). https://doi.org/10.1038/s41597-026-06867-3
Nyckelord: preprintar, vetenskaplig publicering, öppen vetenskap, COVID-19-forskning, bibliometri