Clear Sky Science · zh

PreprintToPaper 数据集:将 bioRxiv 预印本与期刊发表连接起来

· 返回目录

为什么早期研究与我们每个人都有关

在科学发现出现在光鲜期刊之前很久,它常以“预印本”的形式出现——这是研究成果的早期、免费共享版本。在 COVID‑19 大流行期间,这些预印本影响了新闻标题、公共讨论,甚至卫生政策。然而,追踪哪些早期研究后来成为正式期刊文章、哪些则没有,出乎意料地困难。本文介绍了 PreprintToPaper 数据集,一个大规模且经过仔细核验的映射,连接了 bioRxiv 服务器上的生命科学预印本与它们最终的期刊发表,为公众、记者和研究者提供了一个更清晰的视角,展示早期发现如何在科学体系中传播。

Figure 1
Figure 1.

追踪从草稿到论文的旅程

作者聚焦于 bioRxiv——一个生命科学研究者发布预印本的重要在线服务器。他们收集了 145,517 篇预印本的信息,来自两个关键时间段:2016–2018(COVID‑19 大流行前)和 2020–2022(大流行期间出版激增期)。对每篇预印本,他们记录了标题、摘要、作者、机构、学科领域、许可和提交日期等细节。随后,他们借助 Crossref(期刊文章的中央登记处)获取已发表论文的匹配信息:期刊名称、发表日期以及完整作者列表。通过组合这些来源,他们构建了一个丰富的、统一的记录,追踪研究从首次以预印本公开到以期刊论文最终呈现的全过程。

将预印本分类成清晰的组别

为了解释这一大型集合,团队将每篇预印本归入三类之一。“已发表”预印本在 bioRxiv 上有明确的数字链接指向期刊文章。“仅预印本”则发布在服务器上但没有显示已在其他地方发表的迹象。最有趣的一类称为“灰色地带”,包含那些看起来可能已在期刊上发表但在 bioRxiv 上缺乏官方链接的案例。为了捕捉预印本随时间的变化,研究者还构建了一个单独的版本历史文件,列出那些既有原始版本又至少有一次后续更新的预印本的每个可用版本。这使得他人可以研究标题、作者列表和其他细节如何在第一稿与最后一个预印本版本之间演变。

检测隐藏匹配并进行人工核验

许多实际上已发表的预印本并未在 bioRxiv 上收到回指链接,为任何试图追踪科研产出的人造成盲点。为发现这些缺失的连接,作者将预印本的标题和作者列表与 Crossref 的期刊记录进行比较。他们使用介于 0 到 1 的相似度分数来衡量两篇标题的匹配程度;潜在的灰色地带链接需要至少 0.75 的分数。然后,他们用基于作者的指标细化这些候选项:作者数量差异以及姓名相似程度。为了测试这些自动规则是否可靠,两名人工标注者手工审查了 299 个边界案例。他们的判断高度一致,且统计模型显示,当作者列表高度匹配时,所谓的链接很可能是真实的。

Figure 2
Figure 2.

数字揭示的科研产出真相

最终的数据集展示了预印与发表模式在大流行前后如何发生变化。总体而言,数据集中包含超过 90,000 篇明确已发表的预印本、超过 35,000 篇似乎仍仅存于服务器上的预印本,以及约 19,000 个需要侦查才能确认与期刊文章关联的灰色地带案例。如果只统计官方链接的“已发表”组,似乎预印本转为期刊论文的比例随时间大幅下降。但当将可能的灰色地带匹配——那些作者相似度高的案例——纳入计算时,发表率的下降就没有那么显著。这表明底层基础设施中缺失的链接可能会误导我们对科学生态变化的判断。

为何此资源对非专业人士也有用

对非专业读者来说,主要信息是早期的科研结果并非消失在一个黑匣子里。借助 PreprintToPaper 数据集,人们可以看到哪些快速发布的发现最终通过同行评审存活下来、该过程需要多长时间、以及哪些类型的研究从未离开预印本阶段。政策制定者可以利用这些信息评估开放科学实践的有效性;记者可以更好地判断某一结果的可靠性;研究者则可以基于此构建筛选和总结大量论文的工具。简而言之,这个数据集把一股混乱的早期研究浪潮转变为一份更可追溯、更负责任的记录,展示想法如何从首次发布走向完善发表。

引用: Badalova, F., Sienkiewicz, J. & Mayr, P. PreprintToPaper dataset: connecting bioRxiv preprints with journal publications. Sci Data 13, 301 (2026). https://doi.org/10.1038/s41597-026-06867-3

关键词: 预印本, 科学出版, 开放科学, COVID-19 研究, 文献计量学