Clear Sky Science · ar
مجموعة بيانات PreprintToPaper: ربط المنشورات المسبقة على bioRxiv بمقالات المجلات
لماذا تهمنا الأبحاث المبكرة جميعًا
قبل وقت طويل من ظهور الاكتشاف العلمي في مجلة رقيقة الورق، كثيرًا ما يظهر على شكل «منشور مسبق» — نسخة مبكرة ومُتاحة مجانًا من العمل. خلال جائحة كوفيد‑19، شكلت هذه المنشورات المُسبقة عناوين الأخبار والنقاشات العامة وحتى السياسات الصحية. ومع ذلك، كان من الصعب بشكل مفاجئ تتبُّع أي الدراسات المبكرة تحولت لاحقًا إلى مقالات مجلات رسمية وأيها لم يحدث ذلك. تقدم هذه الورقة مجموعة بيانات PreprintToPaper، خريطة كبيرة مدققة بعناية تربط المنشورات المُسبقة في علوم الحياة على خادم bioRxiv بمنشوراتها النهائية في المجلات، مما يمنح الجمهور والصحفيين والباحثين رؤية أوضح عن كيفية انتقال النتائج المبكرة عبر النظام العلمي.

متابعة الرحلة من المسودة إلى المقال
ركز المؤلفون على bioRxiv، وهو خادم إلكتروني رئيسي تُنشر عليه منشورات مُسبقة لعلماء علوم الحياة. جمعوا معلومات عن 145,517 منشورًا مسبقًا من نافذتي زمن رئيسيتين: 2016–2018، قبل جائحة كوفيد‑19، و2020–2022، خلال ذروة النشر أثناء الجائحة. لكل منشور مسبق سجلوا تفاصيل مثل العنوان والملخص والمؤلفين والمؤسسات والمجال الموضوعي والترخيص وتواريخ الإرسال. ثم استعانوا بقاعدة Crossref، السجل المركزي للمقالات المنشورة في المجلات، لجلب معلومات مطابقة عن المقالات المنشورة: أسماء المجلات وتواريخ النشر وقوائم المؤلفين الكاملة. من خلال دمج هذه المصادر بنوا سجلًا موحَّدًا غنيًا يتتبع الدراسة منذ ظهورها العام الأول كمنشور مسبق حتى شكلها النهائي في مجلة علمية.
تصنيف المنشورات المسبقة إلى مجموعات واضحة
لفهم هذه المجموعة الكبيرة، صنّف الفريق كل منشور مسبق إلى واحدة من ثلاث فئات. المنشورات «المنشورة» كانت لديها وصلة رقمية واضحة من bioRxiv إلى مقال مجلة. عناصر «منشور مسبق فقط» نُشرت على الخادم لكنها لم تظهر عليها دلائل على نشرها في مكان آخر. المجموعة الأكثر إثارة للاهتمام، المسماة «المنطقة الرمادية»، تضم حالات تبدو كما لو أنها نُشرت في مجلة لكنها تفتقر إلى رابط رسمي على bioRxiv. لالتقاط كيفية تغيّر المنشورات المسبقة مع الزمن، أنشأ الباحثون أيضًا ملف تاريخ إصدارات منفصل يسرد كل إصدار متاح للمنشورات المسبقة التي كان لها إصدار أصلي وما لا يقل عن تحديث لاحق. يسمح هذا للآخرين بدراسة كيف تتطور العناوين وقوائم المؤلفين وتفاصيل أخرى بين المسودة الأولى وآخر إصدار مسبق.
الكشف عن المطابقات المخفية والتحقق اليدوي منها
العديد من المنشورات المسبقة المنشورة فعليًا لا تحصل أبدًا على رابط مناسب على bioRxiv، مما يخلق نقاط عمياء لأي شخص يحاول تتبُّع الإنتاج العلمي. لكشف هذه الاتصالات المفقودة، قارن المؤلفون عناوين المنشورات المسبقة وقوائم المؤلفين مع سجلات المجلات في Crossref. استخدموا مقياس تشابه يتراوح بين 0 و1 لقياس مدى تطابق عنوانين؛ كانت الروابط المحتملة في المنطقة الرمادية بحاجة إلى درجة تشابه لا تقل عن 0.75. ثم صقلوا هذه المرشحات بمقاييس مبنية على المؤلفين: مدى اختلاف أعداد المؤلفين ومدى تشابه الأسماء. لاختبار ما إذا كانت هذه القواعد الآلية موثوقة، فحص اثنان من المصنّفين البشريين يدويًا 299 حالة على الحافة. أظهرت أحكامهم توافقًا قويًا، وأظهر نموذج إحصائي أنه عندما تتطابق قوائم المؤلفين جيدًا، فإن الرابط المفترض يكون على الأرجح حقيقيًا.

ما تكشفه الأرقام عن الإنتاج العلمي
تُظهر مجموعة البيانات النهائية كيف تغيّرت أنماط ما قبل النشر والنشر قبل وأثناء الجائحة. إجمالًا، تحتوي على أكثر من 90,000 منشور مسبق واضح النشر، وأكثر من 35,000 يبدو أنها ظلت على الخادم فقط، وحوالي 19,000 حالة في المنطقة الرمادية حيث تطلب ربطها بمقال مجلة عمل تحقيقي. عندما يُحتسب فقط مجموعة «المنشورة» المرتبطة رسميًا، يبدو أن حصة أصغر بكثير من المنشورات المسبقة تتحول إلى مقالات مجلات مع مرور الوقت. لكن عندما تُضمّ المطابقات المحتملة في المنطقة الرمادية — تلك ذات تشابه مؤلفين قوي — يصبح الانخفاض في معدلات النشر أقل دراماتيكية بكثير. هذا يشير إلى أن الروابط المفقودة في البنية التحتية الأساسية يمكن أن تضللنا بشأن كيفية تغيّر المشهد العلمي.
لماذا هذه المورد مفيد لما وراء المتخصصين
لغير المتخصصين، الرسالة الأساسية هي أن النتائج العلمية المبكرة لا تختفي ببساطة في صندوق أسود. مع مجموعة بيانات PreprintToPaper، يصبح بالإمكان رؤية أي النتائج السريعة النشر نجت في النهاية من مراجعة الأقران، كم يستغرق ذلك من وقت، وما أنواع الدراسات التي لا تغادر مرحلة المنشورات المسبقة. يمكن لصانعي السياسات استخدام هذه المعلومات لتقييم مدى فعالية ممارسات العلوم المفتوحة؛ ويمكن للصحفيين تقدير مدى متانة نتيجة معينة بشكل أفضل؛ كما يمكن للباحثين بناء أدوات تصفّي وتلخيص لتدفق هائل من المقالات. باختصار، تحول هذه المجموعة من فيضان فوضوي من الأبحاث المبكرة إلى سجل أكثر قابلية للتتبع والمحاسبة عن كيفية انتقال الأفكار من النشر الأولي إلى النشر المصقول.
الاستشهاد: Badalova, F., Sienkiewicz, J. & Mayr, P. PreprintToPaper dataset: connecting bioRxiv preprints with journal publications. Sci Data 13, 301 (2026). https://doi.org/10.1038/s41597-026-06867-3
الكلمات المفتاحية: المنشورات المسبقة, النشر العلمي, العلوم المفتوحة, أبحاث كوفيد-19, المقاييس الببليومترية