Clear Sky Science · ja
PreprintToPaper データセット:bioRxiv のプレプリントと学術誌出版物をつなぐ
初期の研究が私たち全員にとって重要な理由
科学的発見が光沢のある雑誌に掲載されるずっと前に、しばしば「プレプリント」として現れる――研究の早期かつ自由に共有された版だ。COVID‑19 のパンデミック時には、これらのプレプリントがニュース見出しや公共の議論、さらには保健政策にまで影響を与えた。しかし、どの初期研究が後に正式な学術論文になったのか、または結局そうならなかったのかを追跡するのは意外に難しかった。本稿は PreprintToPaper データセットを提示する。これは、bioRxiv サーバ上の生命科学分野のプレプリントと最終的な学術誌掲載を慎重に照合した大規模な対応表であり、一般市民、ジャーナリスト、研究者に対して、初期の知見が科学システムをどのように移動するかをより明確に示す。

草稿から論文への旅をたどる
著者らは生命科学研究者がプレプリントを投稿する主要なオンラインサーバである bioRxiv に着目した。彼らは 145,517 件のプレプリントに関する情報を収集した。対象はパンデミック前の 2016–2018 年の期間と、パンデミックで出版が活発だった 2020–2022 年の二つの主要な時期である。各プレプリントについてタイトル、要旨、著者、所属機関、主題分野、ライセンス、提出日などの詳細を記録した。次に、学術論文の中央的なレジストリである Crossref を利用して、掲載誌名、刊行日、完全な著者リストなど、出版された論文に関する対応情報を取得した。これらの情報源を組み合わせることで、研究がプレプリントとして最初に公表されてから学術誌の最終形態に至るまでを追跡する豊富で統合された記録を構築した。
プレプリントを明確な群に分類する
この大規模なコレクションを理解しやすくするために、チームは各プレプリントを三つのグループのいずれかに分類した。「Published(出版済み)」は bioRxiv から学術論文への明確なデジタルリンクがあるプレプリントを指す。「Preprint Only(プレプリントのみ)」はサーバに投稿されたが他所で出版された形跡がないものだ。最も興味深いグループは「Gray Zone(グレーゾーン)」と呼ばれるもので、学術誌に掲載された可能性があるように見えるが bioRxiv 上に公式なリンクがないケースを含む。プレプリントが時間とともにどのように変化するかをとらえるために、研究者らは、原始版と少なくとも一回の更新版を持つプレプリントについて利用可能なすべての版を列挙した別個の版履歴ファイルも作成した。これにより、タイトルや著者リスト、その他の詳細が最初の草稿から最後のプレプリント版の間でどのように変化するかを他者が調べられるようになる。
隠れた一致を検出し、人の手で確認する
実際には出版されている多くのプレプリントが bioRxiv 上で適切なリンクを受け取らないため、科学的成果を追跡する者に盲点が生じる。これらの見落とされた接続を明らかにするために、著者らはプレプリントのタイトルと著者リストを Crossref のジャーナル記録と比較した。二つのタイトルがどれほど近いかを 0 から 1 の類似度スコアで測り、潜在的なグレーゾーンのリンクには少なくとも 0.75 のスコアが必要とされた。次に著者に基づく指標、すなわち著者数の差や名前の類似性でこれらの候補を精緻化した。これらの自動ルールが信頼できるかを検証するために、二人の人間のアノテーターが 299 件の境界的ケースを手作業で精査した。彼らの判断は高い一致を示し、統計モデルは著者リストがよく一致する場合には、想定されたリンクが本物である可能性が非常に高いことを示した。

科学的アウトプットに関する数値が示すこと
完成したデータセットは、プレプリント投稿と出版のパターンがパンデミック前後でどのように変化したかを示している。全体では、明確に出版済みと判定されたプレプリントが 9 万件以上、サーバ上にとどまっていると思われるものが 3.5 万件以上、ジャーナル記事へのリンクを見つけるのに探偵作業が必要だったグレーゾーンが約 1.9 万件含まれている。公式にリンクされた「Published」グループだけを数えると、時間とともにプレプリントが学術論文に変わる割合が大きく減少しているように見える。しかし、著者の類似性が強いと判断される可能性のあるグレーゾーンの一致を含めると、出版率の低下ははるかに緩やかになる。これは、基盤となるインフラの欠落したリンクが科学の変化について誤解を生む可能性があることを示唆する。
専門家以外にも有用なこの資源の理由
専門外の人々に向けた主なメッセージは、初期の科学的結果が単にブラックボックスに消えてしまうわけではないということだ。PreprintToPaper データセットにより、どの迅速に出された知見が最終的に査読を経て残るのか、その過程にどれほど時間がかかるのか、どのような研究がプレプリント段階にとどまるのかを可視化できる。政策立案者はオープンサイエンスの実践がどれほど機能しているかを判断するためにこの情報を利用でき、ジャーナリストはある結果の確かさをより適切に評価でき、研究者は膨大な論文の流れをふるいにかけ要約するツールを構築できる。要するに、このデータセットは初期研究の混沌とした洪水を、最初の投稿から洗練された出版に至るまでのアイデアの移動をより追跡可能で説明責任のある記録へと変える。
引用: Badalova, F., Sienkiewicz, J. & Mayr, P. PreprintToPaper dataset: connecting bioRxiv preprints with journal publications. Sci Data 13, 301 (2026). https://doi.org/10.1038/s41597-026-06867-3
キーワード: プレプリント, 学術出版, オープンサイエンス, COVID-19 研究, 書誌計量学