Clear Sky Science · ar

مجموعة بيانات للاقتباسات العلمية في مذكرات مكتب البراءات الأمريكية

· العودة إلى الفهرس

لماذا تهم اقتباسات البراءات الابتكار اليومي

عندما تسمع عن جهاز جديد أو دواء أو تكنولوجيا طاقة نظيفة، عادة ما يكون هناك أثر ورقي للأفكار وراءه. يُسجل جزء كبير من هذا الأثر في البراءات والوثائق التي تستشهد بها. يقدم هذا البحث مجموعة بيانات كبيرة وجديدة تكشف، بتفاصيل غير معتادة، أي أجزاء البحث العلمي يعتمد عليها مفتشو البراءات عند تقرير ما إذا كانت الاختراعات تستحق الحماية. من خلال فتح هذه النافذة المخفية على عملية الفحص، يمنح المؤلفون الباحثين وصانعي السياسات وحتى المواطنين الفضوليين طريقة جديدة لدراسة كيف يغذي المعرفة العلمية الابتكار في العالم الواقعي.

Figure 1
Figure 1.

طبقة مخفية في عملية البراءات

تركز معظم دراسات البراءات على الاقتباسات المطبوعة على الصفحة الأمامية للبراءات الممنوحة فقط. تبدو هذه القوائم مباشرة، لكنها نتاج تفاعل معقد بين مقدمي الطلبات والمفتشين الحكوميين. على طول الطريق، يصدر المفتشون خطابات رسمية تسمى مذكرات المكتب، يوضحون فيها لماذا يجب قبول البراءة أو رفضها ويشيرون إلى أعمال سابقة يرونها مهمة. العديد من هذه المواد المستشهد بها، وخاصة الأوراق العلمية، لا تظهر أبداً في البراءة النهائية. حتى الآن، كان من الصعب الوصول إليها بكميات كبيرة، مما يعني أن البحوث تجاهلت إلى حد كبير هذا السجل الغني بكيفية اتخاذ القرارات فعلياً.

بناء خريطة جديدة من مذكرات المكتب

يستفيد المؤلفون من كنز من بيانات مذكرات المكتب التي أتاحتها دائرة براءات الاختراع والعلامات التجارية الأمريكية والمستضافة على سحابة Google. من بين ملايين المراجع، يعزلون حوالي 850,000 مرجع لا تشير إلى براءات أخرى، بل إلى مصادر خارجية مثل مقالات المجلات والكتب ومواقع الويب وكتيبات المنتجات. صمموا نظام تصنيف يضم 14 فئة يومية—تتراوح من الكتب ووقائع المؤتمرات إلى صفحات الويب ووثائق المنتج—ثم دربوا نموذج تعلم آلي لفرز كل اقتباس ضمن أحد هذه الأنواع. يصنف هذا النموذج، المدقَّق باستخدام أمثلة معنونة بمساعدة نظام لغوي متقدم، نحو 847,000 سلسلة اقتباس فريدة.

من المراجع الفوضوية إلى سجلات بحثية نظيفة

تحديد أي الاقتباسات علمية هو الخطوة الأولى فقط. المراجع في العالم الواقعي فوضوية: قد تكون العناوين ناقصة، أو السنوات مكتوبة بخطأ، أو أرقام الصفحات مشوشة. لتحويل هذه العقدة إلى بيانات قابلة للاستخدام، تُدخل الفريق السلاسل الخام في أداة متخصصة تفككها إلى عناصر مثل المؤلف والسنة والمجلة ونطاق الصفحات، مع تطبيق قواعد تنظيف دقيقة. ثم يطابقون هذه السجلات المنقحة مع OpenAlex، قاعدة بيانات مفتوحة كبيرة للمنشورات البحثية، باستخدام استراتيجيتين. عندما يتوفر عنوان، يبحثون بحسب العنوان ويحتفظون بالمطابقات ذات الثقة العالية فقط؛ وعندما لا يتوفر، يعتمدون على مجموعات من أسماء المؤلفين والمجلة والسنة والصفحات. إذا لم يجد OpenAlex تطابقًا، يلجأون إلى Crossref، مصدر رئيسي آخر لمعرفات النشر، ثم يعودون إلى OpenAlex باستخدام أي معرّفات كائن رقمي يتم اكتشافها.

ما مدى موثوقية مجموعة البيانات الجديدة؟

بما أن هذا المورد مخصص لدعم دراسات مستقبلية، يكرس المؤلفون جهودًا كبيرة لاختبار دقته. يصنّف النموذج المكلّف الإشارات إلى النوع الصحيح في حوالي 92 بالمئة من الحالات إجمالاً، ويؤدي أداءً جيدًا بشكل خاص في الفئات الأكثر شيوعًا مثل المقالات المجلة والبراءات. بالنسبة لخطوة المطابقة، تُظهر الفحوص اليدوية أن عمليات البحث القائمة على العنوان تصبح أكثر دقة مع ارتفاع درجة المطابقة، لتصل إلى منتصف التسعينيات بالمئة في المجموعة الأفضل، بينما تكون عمليات البحث المعتمدة على بيانات وصفية مفصّلة صحيحة بنسبة 99 بالمئة في عينة. كما تُظهر عمليات التدقيق المتبادل للسجلات المستردة عبر Crossref تطابقًا شبه كامل. يكون المؤلفون شفافين بشأن النقاط الأضعف—مثل الفئات النادرة كالأطروحات أو التقارير الفنية—ويشجعون المستخدمين على تحسينها عند الحاجة.

Figure 2
Figure 2.

طرق جديدة لدراسة كيف يقود العلم التكنولوجيا

تربط مجموعة البيانات النهائية نحو 265,000 مرجع علمي من مذكرات المكتب بطلبات براءة أمريكية فردية وبسجلات منشورات غنية في OpenAlex. يتيح هذا للباحثين طرح أنواع جديدة من الأسئلة: إلى أي مدى تعتمد مجموعات المفتشين المختلفة أو مجالات التكنولوجيا على الأوراق العلمية؟ أي الدراسات تُعتبر مهمة أثناء الفحص لكنها تختفي من البراءة النهائية؟ هل تستند البراءات المتروكة إلى شريحة مختلفة من السجل العلمي مقارنةً بتلك الناجحة؟ وبما أن كل الشيفرة والبيانات متاحة علنًا، يمكن للآخرين تكييف الأدوات وتوسيع التغطية وتحسين التصنيفات. بعبارات بسيطة، يحول هذا العمل مجموعة من الوثائق القانونية الغامضة والمتناثرة إلى خريطة واضحة وقابلة لإعادة الاستخدام توضح كيف يلتقي العلم بالتكنولوجيا داخل نظام البراءات.

الاستشهاد: Higham, K., Kotula, H., Scharfmann, E. et al. A dataset of scientific citations in U.S. patent Office Actions. Sci Data 13, 325 (2026). https://doi.org/10.1038/s41597-026-06720-7

الكلمات المفتاحية: اقتباسات براءات الاختراع, مذكرات المكتب, الأدبيات العلمية, بيانات الابتكار, OpenAlex