Clear Sky Science · it
Dataset globale di fattori di emissione per applicazioni di machine learning su Scope 3
Perché è importante tracciare il carbonio nascosto
La maggior parte dell’impatto climatico delle aziende moderne non proviene dai loro camini, ma dalle lunghe e intrecciate catene di fornitura: tutto ciò che comprano, vendono, spediscono e esternalizzano. Le cosiddette emissioni “Scope 3” sono notoriamente difficili da monitorare. L’articolo presenta ExioML, un dataset globale open e un toolkit che trasformano decenni di complesse registrazioni economiche e ambientali in dati pronti per il machine learning. Questo rende molto più semplice per ricercatori, decisori politici e imprese stimare da dove provengono davvero le emissioni, confrontare i metodi in modo equo e progettare soluzioni climatiche più intelligenti.

Vedere l’economia mondiale come una rete
Al centro di ExioML c’è un modo di vedere l’economia mondiale come una gigantesca rete di industrie che commerciano tra loro oltre i confini. Invece di limitarsi a contare quanto carbonio viene rilasciato all’interno di un paese, questo approccio segue la traccia delle emissioni lungo le catene di fornitura: dalle materie prime, alle fabbriche, ai negozi e infine ai consumatori. I database esistenti che fanno questo sono potenti ma spesso chiusi da paywall, difficili da usare o obsoleti. Gli autori si basano su una delle risorse open più dettagliate, EXIOBASE, e la riorganizzano in modo che chiunque possa facilmente porsi domande come: quante emissioni di gas serra sono legate alla produzione di acciaio in un dato paese e anno, o come le emissioni in una regione sono incorporate in prodotti consumati altrove.
Trasformare numeri grezzi in dati pronti all’uso
I file grezzi di EXIOBASE sono enormi—più di 40 gigabyte di tabelle che descrivono transazioni tra centinaia di settori in dozzine di regioni, oltre a registrazioni parallele di emissioni, risorse e uso di energia. Gli autori progettano ExioML per distillare questa complessità in due elementi principali. Il primo è una tabella di “contabilità dei fattori”: un foglio strutturato in cui ogni riga corrisponde a uno specifico settore in una specifica regione e anno, con colonne per valore aggiunto, occupazione, uso di energia e emissioni di gas serra. Il secondo è una “rete di impronta”: una mappa semplificata dei legami commerciali più forti tra i settori, che mostra come denaro, energia ed emissioni scorrono attraverso l’economia globale. Per produrli si affidano a unità di elaborazione grafica ad alte prestazioni (GPU) per eseguire i pesanti calcoli matriciali che tracciano le emissioni lungo le catene di fornitura, e standardizzano unità, codici dei settori e denominazioni in modo che tutte le 49 regioni e 28 anni possano essere confrontati direttamente.

Progettato per il machine learning moderno
ExioML è progettato fin dall’inizio con il machine learning in mente. Il dataset copre 49 regioni dal 1995 al 2022 e offre due visuali compatibili: una suddivisa in 200 tipi di prodotti e l’altra in 163 industrie. Questa struttura permette ai ricercatori di trattare ogni combinazione settore–regione–anno come un punto dati, combinando semplici caratteristiche numeriche—come popolazione, reddito pro capite, energia per unità di produzione o emissioni per unità di energia—con informazioni categoriche su dove e cosa sia il settore. Gli autori pubblicano inoltre un pacchetto software open‑source che può caricare i dati, generare riepiloghi di rete e persino fornire split pronti per addestramento, validazione e test. Ciò abbassa la barriera sia per gli scienziati del clima sia per i data scientist che vogliono costruire modelli senza dover diventare prima esperti di contabilità economica specializzata.
Mettere alla prova quanto bene i modelli possono prevedere le emissioni
Per mostrare come ExioML può essere usato, gli autori hanno definito un task di benchmark: prevedere le emissioni di gas serra di un settore a partire da un piccolo insieme di indicatori economici e legati all’energia. Hanno confrontato modelli classici di machine learning, come i nearest neighbors e gli ensemble basati su alberi, con approcci di deep learning moderni che possono apprendere automaticamente combinazioni di caratteristiche. Dopo un’attenta pulizia, scalatura e suddivisione dei dati, hanno trovato che i modelli lineari semplici faticano, confermando che la relazione tra produzione, occupazione, uso di energia ed emissioni è altamente non lineare. I metodi basati su alberi e le reti neurali ottengono entrambi buone prestazioni, con un modello neurale gated che raggiunge la migliore accuratezza. Tuttavia, il miglioramento rispetto ad alberi a gradiente ben ottimizzati è modesto, mentre i modelli profondi richiedono tempi di addestramento molto più lunghi e sono più difficili da mettere a punto.
Cosa significa per il lavoro sul clima e sui dati
Per i non specialisti, il messaggio chiave è che ExioML trasforma un groviglio opaco di dati economici e ambientali globali in una base condivisa e aperta su cui chiunque può costruire. Aziende che cercano di capire l’impatto climatico dei loro acquisti, ricercatori che progettano algoritmi per individuare hotspot ad alta emissione e analisti che esplorano come cambiamenti di politica o tecnologia potrebbero spostare le emissioni future possono tutti lavorare sulla stessa risorsa trasparente. Lo studio mostra che con la giusta struttura anche strumenti di machine learning relativamente semplici possono catturare gran parte dei modelli nascosti nelle emissioni tra settori e regioni. Combinando apertura, rigore tecnico e software pratico, ExioML contribuisce a spostare la contabilità del carbonio da un patchwork di stime private verso una scienza più riproducibile e basata sui dati.
Citazione: Guo, Y., Guan, C. & Ma, J. Global emission factor dataset for Scope 3 machine learning applications. Sci Data 13, 348 (2026). https://doi.org/10.1038/s41597-026-06699-1
Parole chiave: Emissioni Scope 3, contabilità del carbonio, analisi input–output, machine learning, emissioni della catena di fornitura