Clear Sky Science · ru

Реестр данных INGV как кураторская инфраструктура метаданных для управления данными в геонауках

· Назад к списку

Почему это важно для всех, кто интересуется данными

Каждый день Национальный институт геофизики и вулканологии Италии (INGV) фиксирует огромное количество информации о поведении нашей планеты. Превратить этот поток чисел в знания, которые учёные, службы реагирования и широкая публика действительно смогут использовать, оказывается непросто. В этой статье объясняется, как INGV создал нечто вроде мастер-каталога для своих данных — сосредоточенного не на хранении самих файлов, а на их чётком и согласованном описании — чтобы ценные наблюдения за землетрясениями, вулканами, океанами и окружающей средой было проще находить, доверять им и повторно использовать.

Figure 1
Figure 1.

От разрозненных записей к единой карте

INGV — крупная организация, представленная многочисленными офисами, лабораториями и обсерваториями по всей Италии. Её исследователи следят за землетрясениями, извержениями вулканов, морским дном, атмосферой и многим другим, генерируя тысячи разных наборов данных. Ранее они лежали по проектным сайтам, институциональным серверам и внешним архивам, из-за чего даже самому INGV было трудно понять, что именно имеется. Чтобы соответствовать растущим ожиданиям по «открытой науке» в Европе — где данные делятся широко и заблаговременно — институт принял подход «сначала данные». Вместо того чтобы ждать публикаций статей, INGV теперь ставит приоритет на быстрый выпуск данных и их описаний, снабжая их устойчивыми цифровыми идентификаторами, чтобы их можно было цитировать и повторно использовать отдельно от публикаций.

Каталог описаний, а не огромный жёсткий диск

Сердцем этой инициативы является Реестр данных INGV — кураторский каталог, который содержит лишь метаданные — стандартизованные описания каждого набора данных — а не сами файлы. Каждая запись в реестре указывает, где физически находятся данные: на серверах INGV или на внешних платформах, таких как Zenodo, или в специализированных хранилищах геонаучных данных. С момента запуска в 2019 году реестр стабильно рос и сейчас включает почти 800 записей, охватывая большинство данных института, связанных с землетрясениями, окружающей средой и вулканами. Каталог использует международные форматы описания, чтобы его записи могли легко обрабатываться другими системами в Европе и за её пределами. Каждая запись получает постоянный цифровой код (DOI) и связывает набор данных с людьми и учреждениями через глобальные идентификаторы исследователей и организаций.

Figure 2
Figure 2.

Как закладываются качество и доверие

Чтобы поддерживать надёжность каталога, INGV разработал трёхступенчатую проверку, сочетающую автоматические тесты и человеческий контроль. Когда исследователь создаёт новую запись, внутренний веб-инструмент проверяет отсутствие обязательных элементов, таких как идентификаторы авторов, временные и пространственные охваты, а также сведения о лицензировании. Только после устранения этих базовых недостатков запись может продвигаться дальше. Затем сотрудники Офиса управления данными оценивают полноту записи и подтверждают, что веб-страница, на которую ведёт DOI, доступна и корректно структурирована. После этого местные научные руководители и начальники национальных отделов проверяют запись на предмет точности и стратегической уместности, прежде чем она станет видимой публике. Такая «человеческая в петле» модель стремится сделать данные максимально открытыми, одновременно защищая чувствительную информацию, соблюдая правила конфиденциальности и отвечая новым требованиям исследовательской безопасности.

Связь с более широкой научной экосистемой

Реестр не является закрытой системой; он находится в центре широкой сети сервисов. После утверждения каждая запись метаданных автоматически публикуется на портале открытых данных INGV и становится доступной через несколько программных интерфейсов, которыми пользуются другие организации. Европейские исследовательские инфраструктуры по наукам о твёрдой Земле, океанические наблюдательные системы, национальные и европейские порталы открытых данных и глобальные DOI-сервисы могут собирать эти описания. Это делает наборы данных INGV видимыми в рамках мировой сети связанных исследовательских объектов, где данные, программное обеспечение, статьи, люди и организации связаны между собой. Одновременно система помогает самим менеджерам INGV отслеживать, что произведено, что особенно важно во время кризисов — крупных землетрясений или извержений — когда разворачивается множество временных сетей мониторинга и быстро появляются новые потоки данных.

Взгляд вперёд: более умный поиск

Хотя реестр уже улучшает организацию и обмен данными INGV, авторы отмечают несколько остающихся задач. Некоторые исследователи по-прежнему загружают данные на внешние платформы, не регистрируя их, что ослабляет общий обзор института. Растущее число записей может перегружать новичков, которые не всегда понимают, какие наборы данных релевантны им. Чтобы исправить это, INGV планирует более интуитивные, визуальные способы просмотра каталога и интеграцию с новыми институциональными репозиториями. Команда также тестирует автоматизированные инструменты, которые оценивают, насколько каждый набор данных соответствует принципам «FAIR» — доступности, обнаруживаемости, возможности сочетания и повторного использования — и изучает способы сделать описания более понятными для систем искусственного интеллекта, которые всё чаще помогают пользователям искать информацию.

Что это значит для нашего понимания Земли

Для неспециалистов главный вывод прост: когда данные тщательно описаны, имеют стабильные идентичности и проверены на качество, они становятся значительно мощнее. Реестр данных INGV превращает лоскутную систему разрозненных архивов в согласованный, удобный для навигации ландшафт информации о поведении Земли. Это упрощает учёным по всему миру объединять итальянские данные о землетрясениях и вулканах с другими источниками, воспроизводить прошлые исследования и быстрее строить новые. В долгосрочной перспективе такие инфраструктуры метаданных помогают превращать сырые измерения в общие знания, которые могут улучшать оценку рисков, поддерживать гражданскую защиту и углублять наше понимание беспокойной планеты, на которой мы живём.

Цитирование: Locati, M., Mazza, S., Montalto, P. et al. The INGV data registry as a curated metadata infrastructure for Earth Science data stewardship. Sci Data 13, 607 (2026). https://doi.org/10.1038/s41597-026-06980-3

Ключевые слова: данные о Земле, каталог научных данных, открытая наука, реестр метаданных, принципы FAIR