Clear Sky Science · pt

Conjunto de dados PreprintToPaper: conectando preprints do bioRxiv com publicações em periódicos

· Voltar ao índice

Por que pesquisas iniciais importam para todos nós

Muito antes de uma descoberta científica aparecer em um periódico de destaque, ela frequentemente surge como um “preprint” — uma versão inicial e de acesso livre do trabalho. Durante a pandemia de COVID‑19, esses preprints moldaram manchetes, debates públicos e até políticas de saúde. Ainda assim, tem sido surpreendentemente difícil rastrear quais estudos iniciais mais tarde se tornaram artigos formais em periódicos e quais não se tornaram. Este artigo apresenta o conjunto de dados PreprintToPaper, um mapa grande e cuidadosamente verificado que liga preprints de ciências da vida no servidor bioRxiv às suas eventuais publicações em periódicos, oferecendo ao público, jornalistas e pesquisadores uma visão mais clara de como descobertas iniciais viajam pelo sistema científico.

Figure 1
Figure 1.

Acompanhando a jornada do rascunho ao artigo

Os autores concentraram-se no bioRxiv, um servidor online importante onde pesquisadores das ciências da vida postam preprints. Eles coletaram informações de 145.517 preprints em duas janelas temporais principais: 2016–2018, antes da pandemia de COVID‑19, e 2020–2022, durante a intensa corrida de publicações provocada pela pandemia. Para cada preprint, registraram detalhes como título, resumo, autores, instituições, área de assunto, licença e datas de submissão. Em seguida, consultaram o Crossref, um registro central de artigos de periódicos, para obter informações correspondentes sobre artigos publicados: nomes dos periódicos, datas de publicação e listas completas de autores. Ao combinar essas fontes, construíram um registro rico e unificado que acompanha um estudo desde sua primeira aparição pública como preprint até sua forma final em um periódico científico.

Classificando preprints em grupos claros

Para entender essa grande coleção, a equipe classificou cada preprint em um dos três grupos. Preprints “Publicados” tinham um link digital claro do bioRxiv para um artigo de periódico. Itens “Apenas Preprint” foram postados no servidor, mas não apresentaram sinais de terem sido publicados em outro lugar. O grupo mais intrigante, chamado “Zona Cinzenta”, contém casos que parecem ter sido publicados em um periódico, mas carecem de um link oficial no bioRxiv. Para capturar como os preprints mudam ao longo do tempo, os pesquisadores também construíram um arquivo separado de histórico de versões listando todas as versões disponíveis para preprints que tinham uma versão original e pelo menos uma atualização posterior. Isso permite que outros estudem como títulos, listas de autores e outros detalhes evoluem entre o primeiro rascunho e a última versão do preprint.

Detectando correspondências ocultas e verificando-as manualmente

Muitos preprints que de fato foram publicados nunca recebem um link apropriado de volta no bioRxiv, criando pontos cegos para quem tenta rastrear a produção científica. Para descobrir essas conexões ausentes, os autores compararam títulos e listas de autores dos preprints com os registros de periódicos no Crossref. Eles usaram uma pontuação de similaridade entre 0 e 1 para medir o quão próximos dois títulos são; links potenciais da Zona Cinzenta precisavam de uma pontuação de pelo menos 0,75. Em seguida, refinaram esses candidatos com medidas baseadas em autores: quão diferentes eram os números de autores e quão semelhantes os nomes apareciam. Para testar se essas regras automáticas eram confiáveis, dois anotadores humanos examinaram manualmente 299 casos limítrofes. Seus julgamentos concordaram fortemente, e um modelo estatístico mostrou que, quando as listas de autores coincidiam bem, um suposto vínculo tinha alta probabilidade de ser genuíno.

Figure 2
Figure 2.

O que os números revelam sobre a produção científica

O conjunto de dados final mostra como os padrões de preprint e publicação mudaram antes e durante a pandemia. No total, ele contém mais de 90.000 preprints claramente publicados, mais de 35.000 que parecem permanecer apenas no servidor e cerca de 19.000 casos da Zona Cinzenta onde a ligação a um artigo de periódico exigiu trabalho de detetive. Quando apenas o grupo oficialmente vinculado “Publicado” é contado, parece que uma parcela bem menor de preprints está se transformando em artigos de periódicos ao longo do tempo. Mas quando correspondências prováveis da Zona Cinzenta — aquelas com forte similaridade entre autores — são incluídas, a queda nas taxas de publicação é muito menos dramática. Isso sugere que links ausentes na infraestrutura subjacente podem nos enganar sobre como o cenário científico está mudando.

Por que esse recurso é útil além dos especialistas

Para não especialistas, a principal mensagem é que resultados científicos iniciais não simplesmente desaparecem em uma caixa preta. Com o conjunto de dados PreprintToPaper, torna-se possível ver quais achados divulgados rapidamente eventualmente sobrevivem à revisão por pares, quanto tempo essa jornada leva e que tipos de estudos jamais deixam a etapa de preprint. Formuladores de políticas podem usar essa informação para avaliar quão bem as práticas de ciência aberta estão funcionando; jornalistas podem melhor avaliar a solidez de um dado resultado; e pesquisadores podem construir ferramentas que filtram e resumem um fluxo avassalador de artigos. Em suma, esse conjunto de dados transforma uma enxurrada caótica de pesquisas iniciais em um registro mais rastreável e responsável de como as ideias se movem da primeira postagem à publicação refinada.

Citação: Badalova, F., Sienkiewicz, J. & Mayr, P. PreprintToPaper dataset: connecting bioRxiv preprints with journal publications. Sci Data 13, 301 (2026). https://doi.org/10.1038/s41597-026-06867-3

Palavras-chave: preprints, publicação científica, ciência aberta, pesquisa sobre COVID-19, bibliometria