Clear Sky Science · nl

Een dataset van wetenschappelijke citaties in Office Actions van het Amerikaanse octrooibureau

2026-01-31 · Terug naar het overzicht

Waarom octrooi-citaties belangrijk zijn voor alledaagse innovatie

Wanneer u hoort over een nieuw apparaat, geneesmiddel of schone-energietechnologie, ligt daar meestal een keten van ideeën aan ten grondslag. Een groot deel van die keten is vastgelegd in octrooien en de documenten die daarin worden geciteerd. Dit artikel presenteert een nieuwe, uitgebreide dataset die op ongebruikelijke detailniveau onthult op welke wetenschappelijke onderzoeken octrooionderzoekers zich baseren bij de beoordeling of een uitvinding octrooieerbaar is. Door dit verborgen venster op het onderzoeksproces te openen, bieden de auteurs onderzoekers, beleidsmakers en geïnteresseerde burgers een nieuwe manier om te bestuderen hoe wetenschappelijke kennis de echte wereld van innovatie voedt.

Een verborgen laag in het octrooiproces

De meeste studies naar octrooien kijken alleen naar de citaties op de voorpagina van verleende octrooien. Die lijsten lijken eenvoudig, maar ze zijn het eindresultaat van een complex heen en weer tussen aanvragers en overheidsonderzoekers. Onderweg sturen examiners formele brieven, zogenaamde Office Actions, waarin ze uitleggen waarom een octrooi geaccepteerd of afgewezen zou moeten worden en verwijzen naar eerder werk dat zij belangrijk achten. Veel van deze geciteerde items, met name wetenschappelijke artikelen, verschijnen niet op het uiteindelijke octrooi. Tot nu toe waren ze moeilijk in bulk toegankelijk, waardoor onderzoek grotendeels deze rijke bron over hoe beslissingen werkelijk tot stand komen heeft genegeerd.

Een nieuwe kaart bouwen op basis van Office Actions

De auteurs benutten een schat aan Office Action-gegevens die door het United States Patent and Trademark Office zijn vrijgegeven en gehost op Google Cloud. Uit miljoenen referenties isoleren ze ongeveer 850.000 die niet naar andere octrooien verwijzen, maar naar externe bronnen zoals tijdschriftartikelen, boeken, websites en producthandleidingen. Ze ontwerpen een schema met 14 alledaagse categorieën—variërend van boeken en congresverslagen tot webpagina's en productdocumentatie—en trainen vervolgens een machinelearningmodel om elke citatie in een van deze typen in te delen. Dit model, verfijnd met voorbeelden die zijn gelabeld met hulp van een geavanceerd taalmodel, classificeert bijna 847.000 unieke citatiestrings.

Van rommelige referenties naar schone onderzoeksgegevens

Het identificeren welke citaties wetenschappelijk zijn, is slechts de eerste stap. Referenties uit de praktijk zijn rommelig: titels kunnen onvolledig zijn, jaren verkeerd gespeld en paginanummers door elkaar. Om deze warboel bruikbaar te maken, voeren de onderzoekers de ruwe strings in een gespecialiseerd hulpmiddel dat ze ontleedt in onderdelen zoals auteur, jaar, tijdschrift en paginabereik, terwijl het zorgvuldige schoonmaakregels toepast. Vervolgens matchen ze deze opgeschoonde records aan OpenAlex, een grote open database van onderzoekspublicaties, met twee strategieën. Wanneer een titel beschikbaar is, zoeken ze op titel en behouden ze alleen matches met hoge betrouwbaarheid; wanneer die ontbreekt, vertrouwen ze op combinaties van auteursnamen, tijdschrift, jaar en pagina's. Als OpenAlex geen match vindt, stappen ze over op Crossref, een andere belangrijke bron van publicatie-identifiers, en keren terug naar OpenAlex met behulp van eventuele gevonden DOI's.

Hoe betrouwbaar is de nieuwe dataset?

Aangezien deze bron bedoeld is om toekomstig onderzoek te onderbouwen, besteden de auteurs veel aandacht aan het testen van de nauwkeurigheid. Hun classifier wijst referenties in ongeveer 92 procent van de gevallen correct aan de juiste categorie toe, en presteert bijzonder goed op de meest voorkomende klassen zoals tijdschriftartikelen en octrooien. Voor de matchingsstap tonen handmatige controles aan dat titelgebaseerde zoekopdrachten nauwkeuriger worden naarmate de matchscore stijgt, en in de beste groep de mid‑90-percentiels bereiken, terwijl zoekopdrachten gebaseerd op gedetailleerde metadata in een steekproef in 99 procent van de gevallen correct zijn. Kruiscontroles van records die via Crossref werden teruggevonden, laten ook bijna perfecte overeenstemming zien. De auteurs zijn transparant over zwakkere punten—zoals zeldzame categorieën als proefschriften of technische rapporten—en moedigen gebruikers aan deze waar nodig verder te verfijnen.

Nieuwe manieren om te bestuderen hoe wetenschap technologie aanjaagt

De voltooide dataset koppelt ruwweg 265.000 wetenschappelijke referenties uit Office Actions aan individuele Amerikaanse octrooiaanvragen en aan uitgebreide publicatierecords in OpenAlex. Dit stelt onderzoekers in staat nieuwe vragen te stellen: in welke mate vertrouwen verschillende groepen examiners of technologiedomeinen op wetenschappelijke artikelen? Welke studies worden tijdens de beoordeling als belangrijk beschouwd maar verdwijnen uit het uiteindelijke octrooi? Putten geseponeerde octrooien uit een ander deel van het wetenschappelijke archief dan succesvolle octrooien? Omdat alle code en data openlijk worden vrijgegeven, kunnen anderen de tools aanpassen, de dekking uitbreiden en de classificaties verfijnen. Eenvoudig gezegd veranderen de auteurs een obscure en versnipperde set juridische documenten in een heldere, herbruikbare kaart van hoe wetenschap en technologie elkaar ontmoeten binnen het octrooisysteem.

Bronvermelding: Higham, K., Kotula, H., Scharfmann, E. et al. A dataset of scientific citations in U.S. patent Office Actions. Sci Data 13, 325 (2026). https://doi.org/10.1038/s41597-026-06720-7

Trefwoorden: octrooi-citaties, Office Actions, wetenschappelijke literatuur, innovatiegegevens, OpenAlex