Clear Sky Science · de
Das INGV-Datenregister als kuratierte Metadateninfrastruktur für die Betreuung von Erdwissenschaftsdaten
Warum das für alle, die sich für Daten interessieren, wichtig ist
Täglich zeichnet das italienische nationale Institut für Erdbeben und Vulkane (INGV) enorme Mengen an Informationen darüber auf, wie sich unser Planet verhält. Aus dieser Flut von Zahlen Wissen zu machen, das Wissenschaftler, Notfallmanager und die Öffentlichkeit tatsächlich nutzen können, ist überraschend schwierig. Dieser Artikel erklärt, wie das INGV eine Art Hauptkatalog für seine Daten aufgebaut hat — der sich nicht darauf konzentriert, die Dateien selbst zu speichern, sondern sie klar und einheitlich zu beschreiben — damit wertvolle Beobachtungen zu Erdbeben, Vulkanen, Meeren und Umwelt leichter zu finden, zu vertrauen und wiederzuverwenden sind.

Von verstreuten Aufzeichnungen zu einer einzigen Karte
Das INGV ist eine große Organisation mit zahlreichen Büros, Laboren und Observatorien in ganz Italien. Seine Forscher überwachen Erdbeben, ausbrechende Vulkane, den Meeresboden, die Atmosphäre und vieles mehr und erzeugen Tausende unterschiedlicher Datensätze. Früher lagen diese verstreut auf Projektwebseiten, institutionellen Servern und externen Archiven, sodass es selbst für das INGV schwierig war zu wissen, was vorhanden ist. Um den wachsenden Erwartungen an "Open Science" in Europa gerecht zu werden — bei denen Daten breit und früh geteilt werden — verfolgte das Institut einen "Daten-zuerst"-Ansatz. Statt auf die Veröffentlichung wissenschaftlicher Artikel zu warten, priorisiert das INGV heute die schnelle Freigabe von Daten und deren Beschreibungen, versehen mit stabilen digitalen Kennungen, damit sie eigenständig zitiert und wiederverwendet werden können.
Ein Katalog von Beschreibungen, kein riesiges Laufwerk
Kern dieses Vorhabens ist das INGV Data Registry, ein kuratierter Katalog, der nur Metadaten enthält — die standardisierten Beschreibungen der einzelnen Datensätze — und nicht die eigentlichen Datenfiles. Jeder Eintrag im Register verweist auf den Speicherort der Daten, sei es auf INGV-Servern oder auf externen Plattformen wie Zenodo oder spezialisierten Erdwissenschafts-Repositorien. Seit dem Start im Jahr 2019 ist das Register stetig gewachsen und umfasst mittlerweile fast 800 Einträge, die den Großteil der erdbeben-, umwelt- und vulkanbezogenen Daten des Instituts abdecken. Der Katalog nutzt internationale Beschreibungsformate, damit seine Einträge von anderen Systemen in Europa und darüber hinaus leicht gelesen werden können. Jeder Datensatz erhält einen permanenten digitalen Code (einen DOI) und verknüpft die Daten mit den beteiligten Personen und Institutionen über globale Forscher- und Organisations‑IDs.

Wie Qualität und Vertrauen eingebaut werden
Um diesen Katalog zuverlässig zu halten, hat das INGV einen dreistufigen Prüfprozess entworfen, der automatische Tests mit menschlicher Begutachtung kombiniert. Wenn ein Forschender einen neuen Eintrag anlegt, prüft ein internes Webtool auf fehlende Grundlagen wie Autorkennungen, zeitliche und räumliche Abdeckung sowie Lizenzinformationen. Erst wenn diese grundlegenden Punkte behoben sind, kann der Eintrag weitergeführt werden. Dann prüfen Mitarbeitende des Data Management Office die Vollständigkeit des Eintrags und bestätigen, dass die Seite, auf die der DOI verweist, zugänglich und korrekt strukturiert ist. Anschließend begutachten lokale wissenschaftliche Leiter und nationale Abteilungsleiter den Eintrag auf Genauigkeit und strategische Passung, bevor er öffentlich sichtbar wird. Dieses "Human-in-the-loop"-Design zielt darauf ab, Daten so offen wie möglich zu halten und gleichzeitig sensible Informationen zu schützen, Datenschutzvorgaben einzuhalten und neuen Anforderungen an die Forschungssicherheit gerecht zu werden.
Anbindung an die weltweite Wissenschaft
Das Register ist kein geschlossener Kasten; es steht im Zentrum eines größeren Netzes von Diensten. Nach der Freigabe wird jeder Metadatensatz automatisch im Open-Data-Portal des INGV veröffentlicht und über mehrere Programmierschnittstellen bereitgestellt, die von anderen Institutionen genutzt werden. Europäische Forschungsinfrastrukturen für Festlandsgeowissenschaften, Meeresbeobachtungssysteme, nationale und europäische Open-Data-Portale sowie globale DOI-Dienste können diese Beschreibungen alle ernten. Dadurch werden INGV-Datensätze innerhalb eines weltweiten Graphen vernetzter Forschungsobjekte sichtbar, in dem Daten, Software, Artikel, Personen und Organisationen miteinander verbunden sind. Gleichzeitig hilft das System den INGV‑Eigentümern, den Überblick über die produzierten Daten zu behalten — besonders wichtig in Krisen wie schweren Erdbeben oder Ausbrüchen, wenn viele temporäre Überwachungsnetze aufgebaut werden und neue Datenströme schnell entstehen.
Blick nach vorn: intelligentere Entdeckung
Obwohl das Register bereits verbessert, wie INGV-Daten organisiert und geteilt werden, weisen die Autoren auf mehrere verbleibende Herausforderungen hin. Einige Forschende laden ihre Daten weiterhin auf externe Plattformen hoch, ohne sie zu registrieren, was die Übersicht des Instituts schwächt. Die wachsende Anzahl an Einträgen kann für Neueinsteiger überwältigend sein, die womöglich nicht wissen, welche Datensätze relevant sind. Um dem zu begegnen, plant das INGV intuitivere, visuelle Wege zur Durchsuchung des Katalogs und die Integration mit neuen institutionellen Repositorien. Das Team testet außerdem automatisierte Werkzeuge, die bewerten, wie gut jeder Datensatz den "FAIR"-Prinzipien entspricht — also wie leicht er zu finden, zuzugreifen, zu kombinieren und wiederzuverwenden ist — und untersucht, wie die Beschreibungen für KI-Systeme klarer gemacht werden können, die immer häufiger bei der Suche nach Informationen helfen.
Was das für unser Verständnis der Erde bedeutet
Für Nichtfachleute ist die Kernaussage einfach: Werden Daten sorgfältig beschrieben, erhalten stabile Identitäten und auf Qualität geprüft, werden sie deutlich mächtiger. Das INGV Data Registry verwandelt ein Flickwerk separater Archive in eine kohärente, navigierbare Landschaft von Informationen darüber, wie die Erde sich verhält. Das erleichtert es Wissenschaftlern weltweit, italienische Erdbeben‑ und Vulkan‑Daten mit anderen Quellen zu kombinieren, frühere Studien zu reproduzieren und neue schneller zu entwickeln. Auf lange Sicht helfen solche Metadateninfrastrukturen, rohe Messwerte in geteiltes Wissen zu verwandeln, das die Gefahrenabschätzung verbessern, den Katastrophenschutz unterstützen und unser Verständnis des unruhigen Planeten, auf dem wir leben, vertiefen kann.
Zitation: Locati, M., Mazza, S., Montalto, P. et al. The INGV data registry as a curated metadata infrastructure for Earth Science data stewardship. Sci Data 13, 607 (2026). https://doi.org/10.1038/s41597-026-06980-3
Schlüsselwörter: Daten der Erdwissenschaften, Katalog wissenschaftlicher Daten, Open Science, Metadatensatz, FAIR-Prinzipien