Clear Sky Science · pl

Rejestr danych INGV jako uporządkowana infrastruktura metadanych dla zarządzania danymi nauk o Ziemi

· Powrót do spisu

Dlaczego to ma znaczenie dla każdego, kto interesuje się danymi

Codziennie włoski krajowy instytut zajmujący się trzęsieniami ziemi i wulkanami (INGV) rejestruje ogromne ilości informacji o zachowaniu naszej planety. Przekształcenie tej fali cyferek w wiedzę, z której naukowcy, służby ratownicze i społeczeństwo mogą rzeczywiście korzystać, bywa zaskakująco trudne. Ten artykuł wyjaśnia, jak INGV zbudowało coś w rodzaju głównego katalogu swoich danych — skupionego nie na przechowywaniu samych plików, lecz na jasnym i spójnym ich opisie — aby cenne obserwacje dotyczące trzęsień ziemi, wulkanów, oceanów i środowiska były łatwiejsze do znalezienia, zaufania i ponownego wykorzystania.

Figure 1
Figure 1.

Z rozproszonych zapisów do jednej mapy

INGV to duża organizacja rozmieszczona w wielu biurach, laboratoriach i obserwatoriach w całych Włoszech. Jej badacze monitorują trzęsienia ziemi, erupcje wulkanów, dno morskie, atmosferę i wiele innych zjawisk, produkując tysiące różnych zbiorów danych. W przeszłości były one rozproszone po stronach projektów, serwerach instytucjonalnych i zewnętrznych archiwach, co utrudniało nawet samemu INGV wiedzieć, co posiada. Aby sprostać rosnącym oczekiwaniom dotyczącym „Otwartej Nauki” w Europie — gdzie dane są szeroko i wcześnie udostępniane — instytut przyjął podejście „dane-przede-wszystkim”. Zamiast czekać na publikacje naukowe, INGV teraz priorytetowo traktuje szybkie udostępnianie danych i ich opisów, wraz ze stabilnymi cyfrowymi identyfikatorami, tak by można je było cytować i ponownie wykorzystywać samodzielnie.

Katalog opisów, nie olbrzymi dysk twardy

Rdzeniem tego przedsięwzięcia jest Rejestr Danych INGV, kuratorowany katalog zawierający jedynie metadane — ustandaryzowane opisy każdego zestawu danych — zamiast samych plików danych. Każdy wpis w Rejestrze wskazuje, gdzie dane fizycznie się znajdują, czy to na serwerach INGV, czy na platformach zewnętrznych, takich jak Zenodo lub wyspecjalizowane repozytoria nauk o Ziemi. Od uruchomienia w 2019 roku Rejestr systematycznie rozrósł się do prawie 800 rekordów, obejmując większość danych instytutu związanych z trzęsieniami ziemi, środowiskiem i wulkanami. Katalog używa międzynarodowych formatów opisu, dzięki czemu jego wpisy mogą być bezproblemowo odczytywane przez inne systemy w Europie i poza nią. Każdy rekord otrzymuje stały cyfrowy kod (DOI) i łączy zestaw danych z osobami oraz instytucjami zaangażowanymi przez globalne identyfikatory badaczy i organizacji.

Figure 2
Figure 2.

Jak zapewniana jest jakość i zaufanie

Aby utrzymać niezawodność katalogu, INGV zaprojektowało trzyetapowy proces weryfikacji, łączący testy automatyczne z przeglądem ludzkim. Gdy badacz tworzy nowy wpis, wewnętrzne narzędzie webowe sprawdza brakujące elementy niezbędne, takie jak identyfikatory autorów, zakres czasowy i przestrzenny oraz informacje o licencjach. Dopiero po usunięciu tych podstawowych braków rekord może przejść dalej. Następnie pracownicy Biura Zarządzania Danymi oceniają kompletność wpisu i potwierdzają, że strona, do której prowadzi DOI, jest dostępna i poprawnie zbudowana. Potem lokalni kierownicy naukowi i kierownictwo krajowych działów przeglądają rekord pod kątem dokładności i strategicznego dopasowania, zanim stanie się on widoczny publicznie. Ten projekt z „człowiekiem w pętli” ma na celu utrzymanie danych tak otwartych, jak to możliwe, przy jednoczesnej ochronie informacji wrażliwych, przestrzeganiu zasad prywatności i sprostaniu nowym oczekiwaniom dotyczącym bezpieczeństwa badań.

Połączenie ze szerszym światem nauki

Rejestr nie jest zamkniętym pudełkiem; znajduje się w centrum szerszej sieci usług. Po zatwierdzeniu każdy rekord metadanych jest automatycznie publikowany w otwartym portalu danych INGV i udostępniany przez kilka interfejsów programistycznych wykorzystywanych przez inne instytucje. Europejskie infrastruktury badawcze dla nauk o litosferze, systemy obserwacji oceanów, krajowe i europejskie portale danych otwartych oraz globalne usługi DOI mogą zbierać te opisy. Dzięki temu zbiory danych INGV są widoczne w światowym grafie powiązanych obiektów badawczych, gdzie dane, oprogramowanie, artykuły, ludzie i organizacje są połączone. Jednocześnie system pomaga własnym menedżerom INGV śledzić, co zostało wyprodukowane, co jest szczególnie ważne podczas kryzysów, takich jak poważne trzęsienia ziemi lub erupcje, gdy wdrażane są liczne tymczasowe sieci monitorujące i szybko pojawiają się nowe strumienie danych.

Patrząc w przyszłość: inteligentniejsze wyszukiwanie

Choć Rejestr już poprawia organizację i udostępnianie danych INGV, autorzy zauważają kilka pozostających wyzwań. Niektórzy badacze nadal przesyłają dane na zewnętrzne platformy bez ich rejestracji, co osłabia przegląd instytutu. Rosnąca liczba wpisów może też być przytłaczająca dla nowych użytkowników, którzy nie zawsze wiedzą, które zestawy są istotne. Aby temu zaradzić, INGV planuje bardziej intuicyjne, wizualne sposoby przeglądania katalogu oraz integrację z nowymi repozytoriami instytucjonalnymi. Zespół testuje także narzędzia automatyczne oceniające, na ile każdy zestaw danych spełnia zasady „FAIR” — łatwość odnajdywania, dostępu, łączenia i ponownego wykorzystania — oraz bada, jak uczynić opisy bardziej zrozumiałymi dla systemów sztucznej inteligencji, które w coraz większym stopniu pomagają użytkownikom w wyszukiwaniu informacji.

Co to oznacza dla naszego rozumienia Ziemi

Dla osób niezwiązanych z branżą kluczowy przekaz jest prosty: gdy dane są starannie opisane, otrzymują stabilne tożsamości i są sprawdzane pod względem jakości, stają się o wiele potężniejsze. Rejestr Danych INGV przekształca patchwork oddzielnych archiwów w spójną, nawigowalną przestrzeń informacji o zachowaniu Ziemi. Ułatwia to naukowcom na całym świecie łączenie włoskich danych o trzęsieniach ziemi i wulkanach z innymi źródłami, odtwarzanie wcześniejszych badań i szybsze tworzenie nowych. W dłuższej perspektywie takie infrastruktury metadanych pomagają przekształcać surowe pomiary w wspólną wiedzę, która może poprawić ocenę zagrożeń, wspierać ochronę cywilną i pogłębiać nasze zrozumienie niespokojnej planety, na której żyjemy.

Cytowanie: Locati, M., Mazza, S., Montalto, P. et al. The INGV data registry as a curated metadata infrastructure for Earth Science data stewardship. Sci Data 13, 607 (2026). https://doi.org/10.1038/s41597-026-06980-3

Słowa kluczowe: dane nauk o Ziemi, katalog danych badawczych, otwarta nauka, rejestr metadanych, zasady FAIR