Clear Sky Science · ru

Набор данных научных цитирований в документах Office Action патентного ведомства США

2026-01-31 · Назад к списку

Почему патентные цитаты важны для повседневных инноваций

Когда вы слышите о новом гаджете, лекарстве или технологии чистой энергии, за этим обычно стоит цепочка идей. Большая часть этой цепочки фиксируется в патентах и в документах, на которые они ссылаются. В этой статье представлен большой новый набор данных, который необычно детально показывает, на какие научные исследования полагаются патентные эксперты при принятии решения о выдаче охраны изобретению. Открыв это скрытое окно в процесс экспертизы, авторы дают исследователям, политикам и просто любопытным гражданам новый инструмент для изучения того, как научные знания питают реальные инновации.

Скрытый уровень в патентном процессе

Большинство исследований патентов рассматривают только ссылки, напечатанные на титульной странице выданных патентов. Эти списки кажутся простыми, но они являются конечным результатом сложного обмена между заявителями и государственными экспертами. По ходу дела экзаменаторы отправляют формальные письма, называемые Office Actions, в которых объясняют, почему патент должен быть принят или отклонён, и ссылаются на ранние работы, которые они считают важными. Многие из этих упомянутых материалов, особенно научные статьи, так и не попадают в окончательный патент. До сих пор их было трудно собрать в больших объёмах, поэтому исследования в значительной степени игнорировали этот богатый архив фактических решений.

Построение новой карты на основе Office Actions

Авторы использовали массив данных Office Action, опубликованный Патентным и товарным ведомством США и размещённый в Google Cloud. Из миллионов ссылок они выделили примерно 850 000, которые не указывают на другие патенты, а на внешние источники — журнальные статьи, книги, веб‑страницы и руководства по продуктам. Они разработали схему из 14 повседневных категорий — от книг и материалов конференций до веб‑страниц и документации по продуктам — и обучили модель машинного обучения, чтобы классифицировать каждую ссылку по одному из этих типов. Модель, уточнённая с помощью примеров, размеченных при содействии продвинутой языковой системы, классифицировала почти 847 000 уникальных строк цитат.

От небрежных ссылок к аккуратным записям о исследованиях

Определение того, какие ссылки являются научными, — это только первый шаг. Реальные ссылки бывают неопрятными: названия могут быть неполными, годы — ошибочно набранными, номера страниц — перепутаны. Чтобы превратить этот клубок в пригодные данные, команда прогнала исходные строки через специализированный инструмент, который разбирает их на составляющие — автор, год, журнал, диапазон страниц — и применяет аккуратные правила очистки. Затем они сопоставляют эти очищенные записи с OpenAlex, большой открытой базой публикаций, используя две стратегии. Когда доступно название, ищут по названию и оставляют только совпадения с высокой уверенностью; когда названия нет, опираются на комбинации имён авторов, журнала, года и страниц. Если OpenAlex не находит соответствия, прибегают к Crossref, другому крупному источнику идентификаторов публикаций, и затем возвращаются к OpenAlex, используя любые найденные DOI.

Насколько надёжен новый набор данных?

Поскольку этот ресурс предназначен для поддержки будущих исследований, авторы уделили значительное внимание проверке его точности. Их классификатор правильно относит ссылки к нужному типу примерно в 92 процентах случаев в целом, и особенно хорошо работает для самых распространённых классов, таких как журнальные статьи и патенты. Для шага сопоставления ручные проверки показывают, что поиск по названию становится точнее по мере роста оценки совпадения, достигая середины 90‑х процентов в лучшей группе, тогда как поиск по детальным метаданным в выборке правильен в 99 процентах случаев. Взаимные проверки записей, восстановленных через Crossref, также показывают почти идеальное совпадение. Авторы открыто признают более слабые места — например, редкие категории вроде диссертаций или технических отчётов — и поощряют пользователей уточнять эти области при необходимости.

Новые способы изучать, как наука движет технологией

Готовый набор данных связывает примерно 265 000 научных ссылок из Office Actions с отдельными заявками на патенты США и с подробными записями публикаций в OpenAlex. Это позволяет исследователям задавать новые вопросы: насколько разные группы экзаменаторов или технологические области опираются на научные статьи? Какие исследования считаются важными в ходе экспертизы, но исчезают из окончательного патента? Используют ли отклонённые заявки другой фрагмент научного корпуса по сравнению с успешными? Поскольку весь код и данные открыто выпущены, другие могут адаптировать инструменты, расширять покрытие и уточнять классификации. Проще говоря, эта работа превращает малоизвестный и разбросанный набор юридических документов в ясную, повторно используемую карту того, как наука и технология встречаются внутри патентной системы.

Цитирование: Higham, K., Kotula, H., Scharfmann, E. et al. A dataset of scientific citations in U.S. patent Office Actions. Sci Data 13, 325 (2026). https://doi.org/10.1038/s41597-026-06720-7

Ключевые слова: патентные ссылки, Office Actions, научная литература, данные об инновациях, OpenAlex