Clear Sky Science · nl

Het INGV-dateregister als een gecureerde metadata-infrastructuur voor het beheer van aardwetenschappelijke data

· Terug naar het overzicht

Waarom dit belangrijk is voor iedereen die nieuwsgierig is naar data

Dagelijks legt het nationale instituut voor aardbevingen en vulkanen in Italië (INGV) enorme hoeveelheden informatie vast over het gedrag van onze planeet. Van die stroom cijfers kennis maken die wetenschappers, hulpverleners en het publiek daadwerkelijk kunnen gebruiken, blijkt verrassend lastig. Dit artikel legt uit hoe INGV een soort hoofdcatalogus voor zijn data heeft opgebouwd — gericht niet op het opslaan van de bestanden zelf, maar op het helder en consistent beschrijven ervan — zodat waardevolle waarnemingen over aardbevingen, vulkanen, oceanen en het milieu gemakkelijker te vinden, te vertrouwen en te hergebruiken zijn.

Figure 1
Figuur 1.

Van verspreide archieven naar een enkel overzicht

INGV is een grote organisatie met veel kantoren, laboratoria en observatoria verspreid door heel Italië. De onderzoekers volgen aardbevingen, uitbarstende vulkanen, de zeebodem, de atmosfeer en nog veel meer, en produceren duizenden verschillende datasets. Vroeger lagen deze verspreid over projectwebsites, institutionele servers en externe archieven, waardoor het zelfs voor INGV zelf lastig was te overzien wat er aanwezig was. Om te voldoen aan de groeiende verwachtingen rond “Open Science” in Europa — waarbij data breed en vroeg worden gedeeld — koos het instituut voor een “data-eerst”-benadering. In plaats van te wachten op wetenschappelijke publicaties, geeft INGV nu prioriteit aan het snel vrijgeven van data en hun beschrijvingen, compleet met stabiele digitale identificaties zodat ze op zichzelf kunnen worden geciteerd en hergebruikt.

Een catalogus van beschrijvingen, geen gigantische harde schijf

De kern van deze aanpak is het INGV Data Register, een gecureerde catalogus die alleen metadata bevat — de gestandaardiseerde beschrijvingen van elke dataset — in plaats van de datafiles zelf. Elke vermelding in het register verwijst naar waar de data fysiek staan, of dat nu op INGV-servers is of op externe platforms zoals Zenodo of gespecialiseerde aardwetenschappelijke repositories. Sinds de lancering in 2019 is het register gestaag gegroeid tot bijna 800 records, die het grootste deel van de aardbevings-, milieu- en vulkaangegevens van het instituut bestrijken. De catalogus gebruikt internationale beschrijvingsformaten zodat de vermeldingen eenvoudig gelezen kunnen worden door andere systemen in Europa en daarbuiten. Elk record krijgt een permanent digitaal cijfer (een DOI) en koppelt de dataset aan de betrokken personen en instellingen via wereldwijde onderzoeker- en organisatie-identificaties.

Figure 2
Figuur 2.

Hoe kwaliteit en vertrouwen worden ingebouwd

Om deze catalogus betrouwbaar te houden, ontwierp INGV een gecontroleerd drie-stappenproces dat automatische tests combineert met menselijke beoordeling. Wanneer een onderzoeker een nieuw record aanmaakt, controleert een intern webinstrument op ontbrekende essentiële gegevens zoals auteuridentificaties, tijd- en plaatsdekking en licentie-informatie. Pas wanneer deze basisproblemen zijn opgelost kan het record verder. Vervolgens beoordelen medewerkers van het Data Management Office de volledigheid van de vermelding en bevestigen zij dat de webpagina waar de DOI naartoe leidt toegankelijk en goed gestructureerd is. Daarna controleren lokale wetenschappelijke managers en nationale afdelingshoofden het record op juistheid en strategische relevantie voordat het openbaar zichtbaar wordt. Dit “mens in de lus”-ontwerp heeft tot doel data zo open mogelijk te houden, terwijl ook gevoelige informatie wordt beschermd, privacyregels worden gerespecteerd en nieuwe eisen op het gebied van onderzoeksveiligheid worden nageleefd.

Aansluiting op de bredere wereld van de wetenschap

Het register is geen gesloten doos; het staat centraal in een breder web van diensten. Nadat een metadatarecord is goedgekeurd, wordt het automatisch gepubliceerd op INGV’s open dataportal en beschikbaar gesteld via meerdere programmeerinterfaces die door andere instellingen worden gebruikt. Europese onderzoeksinfrastructuren voor solide aardwetenschappen, systemen voor oceaanwaarneming, nationale en Europese open dataportalen en wereldwijde DOI-diensten kunnen al deze beschrijvingen oogsten. Dit maakt INGV’s datasets zichtbaar binnen een wereldwijd netwerk van gekoppelde onderzoeksobjecten, waar data, software, artikelen, personen en organisaties met elkaar verbonden zijn. Tegelijk helpt het systeem de eigen managers van INGV bij het bijhouden van wat er geproduceerd is, wat vooral belangrijk is tijdens crises zoals grote aardbevingen of erupties, wanneer veel tijdelijke monitoringsnetwerken worden ingezet en nieuwe datastromen snel verschijnen.

Vooruitkijken naar slimmer zoeken

Hoewel het register de organisatie en het delen van INGV’s data al verbetert, merken de auteurs enkele resterende uitdagingen op. Sommige onderzoekers laden nog steeds data naar externe platforms zonder ze te registreren, wat het overzicht van het instituut verzwakt. Het groeiende aantal vermeldingen kan overweldigend zijn voor nieuwkomers die mogelijk niet weten welke datasets relevant zijn. Om dit aan te pakken, plant INGV meer intuïtieve, visuele manieren om de catalogus te doorzoeken en wil het deze integreren met nieuwe institutionele repositories. Het team test ook geautomatiseerde hulpmiddelen die scoren hoe goed elke dataset de “FAIR”-principes volgt — makkelijk te vinden, te benaderen, te combineren en te hergebruiken — en onderzoekt hoe de beschrijvingen duidelijker gemaakt kunnen worden voor kunstmatige-intelligentiesystemen die gebruikers steeds vaker helpen bij het zoeken naar informatie.

Wat dit betekent voor ons begrip van de aarde

Voor niet-specialisten is de kernboodschap eenvoudig: wanneer data zorgvuldig worden beschreven, stabiele identiteiten krijgen en op kwaliteit worden gecontroleerd, worden ze veel krachtiger. Het INGV Data Register verandert een lappendeken van afzonderlijke archieven in een samenhangend, doorzoekbaar landschap van informatie over het gedrag van de aarde. Dit maakt het voor wetenschappers wereldwijd gemakkelijker om Italiaanse aardbevings- en vulkaangegevens met andere bronnen te combineren, eerdere studies te reproduceren en sneller nieuwe studies op te bouwen. Op de lange termijn helpen dergelijke metadata-infrastructuren ruwe metingen te transformeren tot gedeelde kennis die de risicoanalyse kan verbeteren, civiele bescherming kan ondersteunen en ons begrip kan verdiepen van de onrustige planeet waarop we leven.

Bronvermelding: Locati, M., Mazza, S., Montalto, P. et al. The INGV data registry as a curated metadata infrastructure for Earth Science data stewardship. Sci Data 13, 607 (2026). https://doi.org/10.1038/s41597-026-06980-3

Trefwoorden: aardwetenschappelijke data, onderzoekdatacatalogus, open wetenschap, metadataregister, FAIR-principes