Clear Sky Science · he

מאגר נתונים של הפניות מדעיות בהודעות משרד הפטנטים של ארה"ב

· חזרה לאינדקס

מדוע הפניות לפטנטים חשובות לחדשנות היומיומית

כאשר שומעים על גאדג'ט חדש, תרופה או טכנולוגיית אנרגיה נקייה, בדרך כלל עומד מאחוריהם מסלול של רעיונות. חלק ניכר מהמסלול הזה מתועד בפטנטים ובמסמכים שהם מצטטים. מאמר זה מציג מאגר נתונים חדש ומקיף שחושף, בפירוט לא שגרתי, אילו מקורות מחקר מדעי בוחני הפטנטים מצטטם כשהם מחליטים האם המצאה ראויה להגנה. על ידי פתיחת חלון נסתר זה לתהליך הבדיקה, הכותבים מספקים לחוקרים, למקבלי מדיניות ואפילו לאזרחים סקרנים אמצעי חדש לחקור כיצד הידע המדעי ממנף חדשנות במציאות.

Figure 1
Figure 1.

שכבה נסתרת בתהליך הפטנטים

רוב המחקרים על פטנטים מסתכלים רק על הציטוטים המודפסים בדף הקדמי של פטנטים מאושרים. רשימות אלה נראות פשוטות, אך הן תוצר סופי של חילופי מכתבים מורכבים בין מבקשי הפטנט לבין בוחני הממשלה. במהלך הדיאלוג הזה מוציאים הבוחנים מכתבים רשמיים הנקראים Office Actions, שבהם הם מסבירים מדוע פטנט צריך להתקבל או להידחות ומצביעים על עבודות קודמות שהם רואים כחשובות. פריטים רבים מתוך המצוטטים הללו, ובפרט מאמרים מדעיים, לעולם אינם מופיעים בפטנט הסופי. עד כה הם היו קשים לגישה בכמות גדולה, ולכן המחקר התעלם למדי מהרשומה העשירה הזו של האופן שבו מתקבלות ההחלטות בפועל.

בניית מפה חדשה מתוך Office Actions

הכותבים מנצלים אוסף נתוני Office Action שהוציא לשימוש ציבורי לשכת הפטנטים וסימני המסחר של ארה"ב ומאוחסן ב-Google Cloud. מתוך מיליוני הפניות הם מבודדים כ־850,000 שאינן מפנות לפטנטים אחרים, אלא למקורות חיצוניים כגון מאמרים בכתבי עת, ספרים, אתרי אינטרנט ומדריכי מוצרים. הם מפתחים תוויג עם 14 קטגוריות יומיומיות—הנעות מספרים וספרי כנסים עד דפי אינטרנט ותיעוד מוצר—ואז מאמנים מודל למידת מכונה למיין כל ציטוט לאחת מהקטגוריות האלה. מודל זה, שעודכן באמצעות דוגמאות מתויגות בעזרת מערכת שפה מתקדמת, מסווג כמעט 847,000 מחרוזות ציטוט ייחודיות.

מציון מבולגן לרשומות מחקר נקיות

זיהוי אילו ציטוטים הם מדעיים הוא רק השלב הראשון. הפניות בעולם האמיתי מורכבות: כותרות עלולות להיות לא שלמות, שנים כתובות בטעות ומספרי עמודים מבולבלים. כדי להפוך את הסבך הזה לנתונים שימושיים, הצוות מזין את המחרוזות הגולמיות לכלי ייעודי שמפרק אותן לחלקים כמו מחבר, שנה, כתב עת וטווח עמודים, תוך יישום כללי ניקוי זהירים. לאחר מכן הם מתאימים את הרשומות המלוטשות ל-OpenAlex, מסד נתונים פתוח גדול של פרסומי מחקר, באמצעות שתי אסטרטגיות. כאשר יש כותרת הם מחפשים לפי כותרת ושומרים רק התאמות בעלות ביטחון גבוה; כאשר אין כותרת הם מסתמכים על שילובים של שמות מחברים, כתב עת, שנה ועמודים. אם OpenAlex אינו מוצא התאמה, הם פונים ל-Crossref, מקור מרכזי נוסף למזהי פרסומים, וחוזרים ל-OpenAlex באמצעות מזהי אובייקטים דיגיטליים שמתגלים.

כמה אמין מאגר הנתונים החדש?

מכיוון שמקור זה מיועד לשמש בסיס למחקרים עתידיים, הכותבים מקדישים מאמצים משמעותיים לבדיקת דיוקו. הממיין שלהם מקצה את ההפניות לסוג הנכון בכמעט 92 אחוז מהמקרים באופן כללי, והוא מתפקד היטב במיוחד עבור הקטגוריות הנפוצות ביותר כגון מאמרים בכתבי עת ופטנטים. עבור שלב ההתאמה, בדיקות ידניות מראות שחיפושים מבוססי כותרת נהיים מדויקים יותר ככל שציון ההתאמה עולה, ומתקרבים לאחוזים הגבוהים באמצע טווח ה-90 בקבוצה הטובה ביותר, בעוד שחיפושים המבוססים על מטא־דטה מפורטת נכונים ב־99 אחוז מהזמן במדגם. בדיקות חוצות של רשומות ששוויכו דרך Crossref גם הן מצביעות על התאמה כמעט מושלמת. הכותבים שקופים לגבי נקודות חלשות—כמו קטגוריות נדירות כגון תזות או דוחות טכניים—ומעודדים משתמשים לשפר אותן לפי הצורך.

Figure 2
Figure 2.

דרכים חדשות לחקור כיצד המדע מניע טכנולוגיה

מאגר הנתונים המוגמר מקשר בערך 265,000 הפניות מדעיות מתוך Office Actions לבקשות פטנט בודדות בארה"ב ולרשומות פרסום עשירות ב-OpenAlex. זה מאפשר לחוקרים לשאול סוגים חדשים של שאלות: עד כמה קבוצות בוחנים שונות או תחומי טכנולוגיה נשענים על מאמרים מדעיים? אילו מחקרים נחשבים חשובים במהלך הבדיקה אך נעלמים מהפטנט הסופי? האם פטנטים נזנחים נשענים על חתך שונה של הרישום המדעי מאשר אלה המוצלחים? מכיוון שכל הקוד והנתונים שוחררו בפומבי, אחרים יכולים להתאים את הכלים, להרחיב את הכיסוי ולחדד את הסיווגים. בפשטות, עבודה זו הופכת אוסף משפטי מפוזר ומעורפל למפה ברורה ושימושית של האופן שבו מדע וטכנולוגיה מצטלבים בתוך מערכת הפטנטים.

ציטוט: Higham, K., Kotula, H., Scharfmann, E. et al. A dataset of scientific citations in U.S. patent Office Actions. Sci Data 13, 325 (2026). https://doi.org/10.1038/s41597-026-06720-7

מילות מפתח: הפניות לפטנטים, הודעות משרד, ספרות מדעית, נתוני חדשנות, OpenAlex