Clear Sky Science · he
מאגר PreprintToPaper: קישור בין פריפרינטים של bioRxiv לפרסומים בכתב עת
מדוע מחקרים מוקדמים חשובים לכולנו
הרבה לפני שגילוי מדעי מופיע בכתב עת מנצנץ, הוא לעיתים קרובות מתפרסם כ"פריפרינט" — גרסה מוקדמת המשוחררת בחופשיות. במהלך מגפת COVID‑19, פריפרינטים אלה עיצבו כותרות חדשות, דיונים ציבוריים ואף מדיניות בריאותית. ועדיין, היה קשה להפתיע לעקוב אילו מחקרים מוקדמים הפכו מאוחר יותר למאמרים רשמיים בכתבי עת ואילו לא. עבודה זו מציגה את מאגר הנתונים PreprintToPaper, מפה גדולה ובדוקה בקפידה שמקשרת פריפרינטים במדעי החיים בשרת bioRxiv לפרסומים בכתבי עת שאליהם הגיעו בסופו של דבר, ומספקת לציבור, לעיתונאים ולחוקרים תמונה ברורה יותר של האופן שבו ממצאים מוקדמים עוברים במערכת המדעית.

מעקב אחרי המסע מטיוטה למאמר
המחברים התמקדו ב‑bioRxiv, שרת מרכזי בו חוקרי מדעי החיים מפרסמים פריפרינטים. הם אספו מידע על 145,517 פריפרינטים משתי תקופות מפתח: 2016–2018, לפני מגפת COVID‑19, ו‑2020–2022, במהלך גל פרסומים עז שבא בעקבות המגפה. עבור כל פריפרינט רשם הצוות פרטים כגון הכותרת, התקציר, המחברים, המוסדות, תחום הנושא, הרישיון ותאריכי ההגשה. לאחר מכן נשענו על Crossref, רשם מרכזי של מאמרים בכתבי עת, כדי לאחזר מידע תואם על מאמרים שפורסמו: שמות כתבי העת, תאריכי הפרסום ורשימות המחברים המלאות. בשילוב מקורות אלה בנו תיעוד עשיר ואחיד שמלווה מחקר מהופעתו הציבורית הראשונה כפריפרינט ועד צורתו הסופית בכתב עת מדעי.
מיון פריפרינטים לקבוצות ברורות
כדי להבין אוסף גדול זה, הצוות מיין כל פריפרינט לאחת משלוש קבוצות. פריפרינטים "פורסמו" היו בעלי קישור דיגיטלי ברור מ‑bioRxiv למאמר בכתב עת. פריטים בקטגוריית "פריפרינט בלבד" פורסמו בשרת אך לא הראו סימן שנפרסמו במקום אחר. הקבוצה המרתקת ביותר, הקרויה "אזור האפור", מכילה מקרים שנראים כאילו פורסמו בכתב עת אך חסר להם קישור רשמי ב‑bioRxiv. כדי לתעד כיצד פריפרינטים משתנים לאורך זמן, החוקרים גם בנו קובץ היסטוריית גרסאות נפרד שמפרט כל גרסה זמינה לפריפרינטים שהיו להם גרסה ראשונית ולפחות עדכון אחד מאוחר יותר. כך ניתן לחקור כיצד כותרות, רשימות מחברים ופרטים אחרים משתנים בין הטיוטה הראשונה לגרסת הפריפרינט האחרונה.
גילוי התאמות חבויות ובדיקה ידנית שלהן
פריפרינטים רבים שלמעשה פורסמו לעולם אינם מקבלים קישור מתאים ב‑bioRxiv, ויוצרים אזורים עיוורים בפני מי שמנסה לעקוב אחר התפוקה המדעית. כדי לחשוף חיבורים חסרים אלה השוו המחברים כותרות פריפרינטים ורשימות מחברים מול רשומות הכתבים של Crossref. הם השתמשו במדד דמיון בין 0 ל‑1 כדי למדוד עד כמה שתי כותרות תואמות; קישורים אפשריים לאזור האפור נדרשו לקבל ציון של לפחות 0.75. לאחר מכן שיפרו את המועמדים האלה באמצעות מדדים מבוססי מחברים: עד כמה מספר המחברים התחלף ועד כמה השמות נראו דומים. כדי לבדוק האם כללים אוטומטיים אלה אמינים, שני מסמנים אנושיים בדקו ידנית 299 מקרים שוליים. שיפוטיהם התאמו זה לזה בחוזקה, ומודל סטטיסטי הראה שכאשר רשימות המחברים תואמות היטב, קישור כביכול היה כנראה אמיתי.

מה המספרים חושפים על התפוקה המדעית
מאגר הנתונים המוגמר מציג כיצד דפוסי פריפרינטינג ופרסום השתנו לפני ובמהלך המגפה. בסך הכל הוא מכיל למעלה מ‑90,000 פריפרינטים שפורסמו בבירור, יותר מ‑35,000 שמופיעים כנותרים רק על השרת וכ‑19,000 מקרים ב"אזור האפור" שבהם הקישור למאמר בכתב עת דרש עבודה חקירתית. כאשר נחשבת רק הקבוצה ה"פורסמה" המקושרת רשמית, נראה שחלק קטן הרבה יותר מהפריפרינטים הופך למאמרים בכתב עת לאורך הזמן. אך כאשר כוללים התאמות סבירות מאזור האפור — אלה עם דמיון מחברים חזק — הירידה בשיעור הפרסום נמוכה בהרבה. הדבר מרמז שקישורים חסרים בתשתיות הבסיסיות יכולים להטעות אותנו לגבי האופן שבו הנוף המדעי משתנה.
מדוע המשאב הזה מועיל מעבר למומחים
עבור לא‑מומחים, המסר המרכזי הוא שממצאים מדעיים מוקדמים לא נעלמים פשוט לתוך תיבה שחורה. עם מאגר PreprintToPaper, ניתן לראות אילו תוצאות מהירות שורדות לבסוף שיפוט עמיתים, כמה זמן לוקח המסע הזה ואיזה סוגי מחקרים אף פעם לא עוזבים את שלב הפריפרינט. מקבלי החלטות יכולים להשתמש במידע זה כדי להעריך עד כמה פרקטיקות המדע הפתוח עובדות; עיתונאים יכולים להעריך טוב יותר עד כמה תוצאה מסוימת מוצקה; וחוקרים יכולים לבנות כלים שממיינים ומסכמים זרם מכריע של מאמרים. בקיצור, מאגר זה הופך שיטפון כאוטי של מחקר מוקדם לרשומה יותר ניתנת למעקב ולתשובה של האופן שבו רעיונות נעים מפרסום ראשוני לפרסום מלוטש.
ציטוט: Badalova, F., Sienkiewicz, J. & Mayr, P. PreprintToPaper dataset: connecting bioRxiv preprints with journal publications. Sci Data 13, 301 (2026). https://doi.org/10.1038/s41597-026-06867-3
מילות מפתח: פריפרינטים, פרסום מדעי, מדע פתוח, מחקר COVID-19, ביבליאומטריקה