Clear Sky Science · fr
Le registre de données de l’INGV comme infrastructure de métadonnées organisée pour la gestion des données en sciences de la Terre
Pourquoi c’est important pour toute personne curieuse des données
Chaque jour, l’institut national italien pour les séismes et les volcans (INGV) enregistre d’énormes quantités d’informations sur le comportement de notre planète. Transformer ce flot de chiffres en connaissances utilisables par les scientifiques, les gestionnaires d’urgence et le grand public est étonnamment difficile. Cet article explique comment l’INGV a construit une sorte de catalogue maître pour ses données — axé non pas sur le stockage des fichiers eux‑mêmes, mais sur leur description claire et cohérente — afin que les observations précieuses sur les séismes, les volcans, les océans et l’environnement soient plus faciles à trouver, à vérifier et à réutiliser.

De dossiers épars à une carte unique
L’INGV est une grande organisation répartie entre de nombreux bureaux, laboratoires et observatoires à travers l’Italie. Ses chercheurs surveillent les séismes, les volcans en éruption, le plancher océanique, l’atmosphère et bien d’autres choses, produisant des milliers de jeux de données différents. Par le passé, ceux‑ci étaient disséminés sur des sites de projet, des serveurs institutionnels et des archives externes, rendant difficile, même pour l’INGV lui‑même, de savoir ce dont il disposait. Pour répondre aux attentes croissantes en matière de « science ouverte » en Europe — où les données sont largement partagées et publiées rapidement — l’institut a adopté une approche « data‑first ». Plutôt que d’attendre la publication des articles scientifiques, l’INGV privilégie désormais la diffusion rapide des données et de leurs descriptions, avec des identifiants numériques stables pour qu’elles puissent être citées et réutilisées indépendamment.
Un catalogue de descriptions, pas un disque dur géant
Le cœur de cette initiative est le Registre de données de l’INGV, un catalogue organisé qui ne contient que des métadonnées — les descriptions standardisées de chaque jeu de données — plutôt que les fichiers eux‑mêmes. Chaque entrée du Registre renvoie à l’endroit où les données résident physiquement, que ce soit sur des serveurs de l’INGV ou sur des plateformes externes comme Zenodo ou des dépôts spécialisés en sciences de la Terre. Depuis son lancement en 2019, le Registre a crû régulièrement pour atteindre près de 800 notices, couvrant la plupart des données de l’institut liées aux séismes, à l’environnement et aux volcans. Le catalogue utilise des formats de description internationaux afin que ses notices puissent être lues facilement par d’autres systèmes en Europe et au‑delà. Chaque enregistrement reçoit un code numérique permanent (un DOI) et relie le jeu de données aux personnes et institutions impliquées via des identifiants globaux de chercheurs et d’organisations.

Comment la qualité et la confiance sont intégrées
Pour maintenir la fiabilité de ce catalogue, l’INGV a conçu un processus de contrôle en trois étapes qui combine des tests automatiques et une révision humaine. Lorsqu’un chercheur crée une nouvelle notice, un outil web interne vérifie les éléments essentiels manquants tels que les identifiants d’auteur, la couverture temporelle et spatiale, et les informations de licence. Ce n’est qu’une fois ces points de base résolus que la notice peut avancer. Ensuite, le personnel du Bureau de gestion des données examine l’exhaustivité de l’entrée et confirme que la page web vers laquelle pointe le DOI est accessible et correctement structurée. Après cela, les responsables scientifiques locaux et les chefs de départements nationaux évaluent la notice pour en vérifier l’exactitude et l’adéquation stratégique avant qu’elle ne devienne visible du public. Cette conception avec « l’humain dans la boucle » vise à maintenir les données aussi ouvertes que possible tout en protégeant les informations sensibles, en respectant les règles de confidentialité et en répondant aux nouvelles exigences de sécurité de la recherche.
Connexion au monde scientifique plus large
Le Registre n’est pas une boîte fermée ; il se situe au centre d’un réseau plus large de services. Une fois approuvée, chaque notice de métadonnées est automatiquement publiée sur le portail de données ouvertes de l’INGV et rendue disponible via plusieurs interfaces de programmation utilisées par d’autres institutions. Les infrastructures de recherche européennes pour les sciences de la Terre solide, les systèmes d’observation océaniques, les portails nationaux et européens de données ouvertes, ainsi que les services DOI mondiaux peuvent tous moissonner ces descriptions. Cela rend les jeux de données de l’INGV visibles au sein d’un graphe mondial d’objets de recherche liés, où données, logiciels, articles, personnes et organisations sont tous connectés. En parallèle, le système aide les gestionnaires de l’INGV à suivre ce qui a été produit, ce qui est particulièrement important lors de crises telles que de forts séismes ou éruptions, quand de nombreux réseaux de surveillance temporaires sont déployés et de nouveaux flux de données apparaissent rapidement.
Perspectives pour une découverte plus intelligente
Bien que le Registre améliore déjà l’organisation et le partage des données de l’INGV, les auteurs signalent plusieurs défis restants. Certains chercheurs déposent encore des données sur des plateformes externes sans les enregistrer, ce qui affaiblit la vision d’ensemble de l’institut. Le volume croissant de notices peut être intimidant pour les nouveaux venus, qui ne savent pas toujours quels jeux de données sont pertinents. Pour y remédier, l’INGV prévoit des modes de navigation plus intuitifs et visuels dans le catalogue et son intégration avec de nouveaux réservoirs institutionnels. L’équipe teste également des outils automatisés qui évaluent dans quelle mesure chaque jeu de données respecte les principes « FAIR » — facilité à trouver, à accéder, à combiner et à réutiliser — et explore comment rendre les descriptions plus claires pour les systèmes d’intelligence artificielle qui assistent de plus en plus les utilisateurs dans leurs recherches d’information.
Ce que cela signifie pour notre compréhension de la Terre
Pour les non‑spécialistes, le message clé est simple : lorsqu’elles sont soigneusement décrites, dotées d’identités stables et vérifiées pour leur qualité, les données deviennent bien plus puissantes. Le Registre de données de l’INGV transforme un patchwork d’archives séparées en un paysage cohérent et navigable d’informations sur le comportement de la Terre. Cela facilite la combinaison par des chercheurs du monde entier des données italiennes sur les séismes et les volcans avec d’autres sources, la reproduction d’études antérieures et la construction de nouvelles recherches plus rapidement. À long terme, de telles infrastructures de métadonnées contribuent à transformer des mesures brutes en connaissances partagées susceptibles d’améliorer l’évaluation des risques, de soutenir la protection civile et d’approfondir notre compréhension de la planète agitée sur laquelle nous vivons.
Citation: Locati, M., Mazza, S., Montalto, P. et al. The INGV data registry as a curated metadata infrastructure for Earth Science data stewardship. Sci Data 13, 607 (2026). https://doi.org/10.1038/s41597-026-06980-3
Mots-clés: données en sciences de la Terre, catalogue de données de recherche, science ouverte, registre de métadonnées, principes FAIR