Clear Sky Science · fr
Jeu de données mondial de facteurs d'émission pour les applications d'apprentissage automatique du Scope 3
Pourquoi il est important de suivre le carbone caché
La majeure partie de l'impact climatique des entreprises modernes ne provient pas de leurs propres cheminées, mais de chaînes d'approvisionnement longues et emmêlées — tout ce qu'elles achètent, vendent, expédient et externalisent. Ces émissions dites « Scope 3 » sont notoirement difficiles à suivre. L'article présente ExioML, un jeu de données et une boîte à outils mondiaux ouverts qui transforment des décennies d'enregistrements économiques et environnementaux complexes en données prêtes pour l'apprentissage automatique. Cela facilite grandement pour les chercheurs, décideurs et entreprises l'estimation des véritables sources d'émissions, la comparaison équitable des méthodes et la conception de solutions climatiques plus intelligentes.

Voir l'économie mondiale comme une toile
Au cœur d'ExioML se trouve une manière de considérer l'économie mondiale comme une immense toile d'industries échangeant entre elles au-delà des frontières. Plutôt que de ne compter que le carbone émis à l'intérieur d'un pays, cette approche suit la piste des émissions le long des chaînes d'approvisionnement : des matières premières aux usines, aux magasins, puis aux consommateurs. Les bases de données existantes qui font cela sont puissantes mais souvent enfermées derrière des paywalls, difficiles à utiliser ou obsolètes. Les auteurs s'appuient sur l'une des ressources ouvertes les plus détaillées, EXIOBASE, et la réorganisent pour que chacun puisse facilement poser des questions telles que : quelle quantité de gaz à effet de serre est liée à la production d'acier dans un pays donné et une année donnée, ou comment les émissions d'une région sont incorporées dans des produits consommés ailleurs.
Transformer des chiffres bruts en données prêtes à l'emploi
Les fichiers bruts d'EXIOBASE sont énormes — plus de 40 gigaoctets de tableaux décrivant les transactions entre des centaines de secteurs dans des dizaines de régions, plus des enregistrements parallèles d'émissions, de ressources et d'utilisation d'énergie. Les auteurs conçoivent ExioML pour distiller cette complexité en deux éléments principaux. Le premier est un tableau de « comptabilisation par facteur » : une feuille de calcul bien structurée où chaque ligne correspond à un secteur spécifique dans une région et une année données, avec des colonnes pour la valeur ajoutée, l'emploi, la consommation d'énergie et les émissions de gaz à effet de serre. Le second est un « réseau d'empreinte » : une carte épurée des liens commerciaux les plus forts entre secteurs, montrant comment l'argent, l'énergie et les émissions circulent dans l'économie mondiale. Pour produire ces éléments, ils s'appuient sur des unités de traitement graphique (GPU) haute performance pour effectuer les calculs matriciels exigeants qui retracent les émissions le long des chaînes d'approvisionnement, et ils standardisent les unités, les codes de secteur et la nomenclature afin que les 49 régions et 28 années puissent être comparées directement.

Conçu pour l'apprentissage automatique moderne
ExioML est conçu dès le départ avec l'apprentissage automatique à l'esprit. Le jeu de données couvre 49 régions de 1995 à 2022 et offre deux vues compatibles : l'une subdivisée en 200 types de produits et l'autre en 163 industries. Cette structure permet aux chercheurs de traiter chaque couple secteur–région–année comme un point de données, en combinant des caractéristiques numériques simples — comme la population, le revenu par personne, l'énergie par unité de production ou les émissions par unité d'énergie — avec des informations catégorielles sur le lieu et la nature du secteur. Les auteurs publient également un paquet logiciel open source capable de charger les données, de générer des résumés de réseau et même de fournir des découpages prêts à l'emploi pour l'entraînement, la validation et le test. Cela réduit la barrière d'entrée tant pour les climatologues que pour les data scientists qui souhaitent construire des modèles sans devenir d'abord des experts en comptabilité économique spécialisée.
Tester la capacité des modèles à prédire les émissions
Pour montrer comment ExioML peut être utilisé, les auteurs mettent en place une tâche de référence : prédire les émissions de gaz à effet de serre d'un secteur à partir d'un petit ensemble d'indicateurs économiques et liés à l'énergie. Ils comparent des modèles classiques d'apprentissage automatique, tels que les k-plus proches voisins et les ensembles d'arbres, à des approches de deep learning modernes capables d'apprendre automatiquement des combinaisons de caractéristiques. Après un nettoyage, une mise à l'échelle et une séparation soigneux des données, ils constatent que les modèles linéaires simples peinent, confirmant que la relation entre production, emploi, consommation d'énergie et émissions est fortement non linéaire. Les méthodes basées sur les arbres et les réseaux de neurones obtiennent toutes deux de bonnes performances, un modèle neuronal à portes atteignant la meilleure précision. Toutefois, l'amélioration par rapport à des arbres à gradient boosté bien optimisés est modeste, tandis que les modèles profonds demandent beaucoup plus de temps d'entraînement et sont plus difficiles à affiner.
Ce que cela signifie pour le travail climatique et les données
Pour les non-spécialistes, le message clé est qu'ExioML transforme un enchevêtrement opaque de données économiques et environnementales mondiales en une base partagée et ouverte sur laquelle chacun peut s'appuyer. Les entreprises cherchant à comprendre l'impact climatique de leurs achats, les chercheurs concevant des algorithmes pour repérer les points chauds d'émissions et les analystes explorant comment des politiques ou des changements technologiques pourraient modifier les émissions futures peuvent tous travailler à partir de la même ressource transparente. L'étude montre qu'avec la bonne structure, même des outils d'apprentissage automatique relativement simples peuvent capturer une grande partie des schémas cachés des émissions à travers secteurs et régions. En combinant ouverture, rigueur technique et logiciel pratique, ExioML contribue à faire passer la comptabilité carbone d'un patchwork d'estimations privées à une science plus reproductible et fondée sur les données.
Citation: Guo, Y., Guan, C. & Ma, J. Global emission factor dataset for Scope 3 machine learning applications. Sci Data 13, 348 (2026). https://doi.org/10.1038/s41597-026-06699-1
Mots-clés: Émissions Scope 3, comptabilité carbone, analyse input–output, apprentissage automatique, émissions de la chaîne d'approvisionnement