Clear Sky Science · pt

Conjunto de dados global de fatores de emissão para aplicações de aprendizado de máquina em Escopo 3

· Voltar ao índice

Por que rastrear o carbono oculto importa

A maior parte do impacto climático das empresas modernas não vem de suas próprias chaminés, mas de longas e emaranhadas cadeias de suprimentos — tudo o que compram, vendem, transportam e terceirizam. Essas chamadas emissões de “Escopo 3” são notoriamente difíceis de rastrear. O artigo apresenta o ExioML, um conjunto de dados global aberto e um conjunto de ferramentas que transformam décadas de registros econômicos e ambientais complexos em dados prontos para aprendizado de máquina. Isso torna muito mais fácil para pesquisadores, formuladores de políticas e empresas estimar de onde as emissões realmente vêm, comparar métodos de forma justa e projetar soluções climáticas mais inteligentes.

Figure 1
Figure 1.

Vendo a economia mundial como uma teia

No cerne do ExioML está uma forma de enxergar a economia mundial como uma gigantesca teia de indústrias que trocam entre si através de fronteiras. Em vez de apenas contabilizar quanto carbono é liberado dentro de um país, essa abordagem segue a trilha das emissões ao longo das cadeias de suprimentos: desde matérias‑primas, passando por fábricas e lojas, até os consumidores. Bases de dados existentes que fazem isso são poderosas, mas frequentemente estão atrás de paywalls, são difíceis de usar ou estão desatualizadas. Os autores se baseiam em um dos recursos abertos mais detalhados, o EXIOBASE, e o reorganizam para que qualquer pessoa possa facilmente fazer perguntas como: quanto de gás de efeito estufa está ligado à produção de aço em um determinado país e ano, ou como as emissões de uma região estão incorporadas em produtos consumidos em outro lugar.

Transformando números brutos em dados prontos para uso

Os arquivos brutos do EXIOBASE são enormes — mais de 40 gigabytes de tabelas descrevendo transações entre centenas de setores em dezenas de regiões, além de registros paralelos de emissões, recursos e uso de energia. Os autores projetam o ExioML para destilar essa complexidade em duas peças principais. A primeira é uma tabela de “contabilização por fator”: uma planilha bem estruturada onde cada linha é um setor específico em uma região e ano específicos, com colunas para valor adicionado, empregos, uso de energia e emissão de gases de efeito estufa. A segunda é uma “rede de pegada”: um mapa simplificado dos vínculos comerciais mais fortes entre setores, mostrando como dinheiro, energia e emissões fluem pela economia global. Para produzir esses elementos, eles dependem de unidades de processamento gráfico (GPUs) de alto desempenho para processar os exigentes cálculos matriciais que traçam as emissões ao longo das cadeias de suprimentos, e padronizam unidades, códigos de setor e nomenclaturas para que todas as 49 regiões e 28 anos possam ser comparados diretamente.

Figure 2
Figure 2.

Construído para o aprendizado de máquina moderno

O ExioML é concebido desde o início com o aprendizado de máquina em mente. O conjunto de dados cobre 49 regiões de 1995 a 2022 e oferece duas visões compatíveis: uma dividida em 200 tipos de produtos e outra em 163 indústrias. Essa estrutura permite que pesquisadores tratem cada setor–região–ano como um ponto de dados, combinando características numéricas simples — como população, renda per capita, energia por unidade de produção ou emissões por unidade de energia — com informações categóricas sobre onde e qual é o setor. Os autores também publicam um pacote de software de código aberto que pode carregar os dados, gerar resumos de rede e até fornecer divisões prontas de treino, validação e teste. Isso reduz a barreira tanto para cientistas do clima quanto para cientistas de dados que querem construir modelos sem primeiro se tornarem especialistas em contabilidade econômica especializada.

Testando quão bem os modelos podem prever emissões

Para demonstrar como o ExioML pode ser usado, os autores estabeleceram uma tarefa de referência: prever as emissões de gases de efeito estufa de um setor a partir de um pequeno conjunto de indicadores econômicos e relacionados à energia. Eles comparam modelos clássicos de aprendizado de máquina, como k‑vizinhos mais próximos e conjuntos baseados em árvores, com abordagens modernas de deep learning que podem aprender automaticamente combinações de características. Após cuidadosa limpeza, escalonamento e divisão dos dados, constatam que modelos lineares simples têm dificuldade, confirmando que a relação entre produção, empregos, uso de energia e emissões é altamente não linear. Métodos baseados em árvores e redes neurais têm desempenho bom, com um modelo neural com mecanismo de gating alcançando a melhor precisão. No entanto, a melhoria em relação a árvores de gradiente bem ajustadas é modesta, enquanto os modelos profundos levam muito mais tempo para treinar e são mais difíceis de ajustar finamente.

O que isso significa para trabalho climático e de dados

Para não especialistas, a mensagem principal é que o ExioML transforma um emaranhado opaco de dados econômicos e ambientais globais em uma base compartilhada e aberta sobre a qual qualquer pessoa pode construir. Empresas que tentam entender o impacto climático de suas compras, pesquisadores que projetam algoritmos para identificar pontos críticos de alta emissão e analistas que exploram como mudanças em políticas ou tecnologias podem alterar emissões futuras podem todos trabalhar a partir do mesmo recurso transparente. O estudo mostra que, com a estrutura certa, mesmo ferramentas de aprendizado de máquina relativamente simples podem captar grande parte do padrão oculto nas emissões entre setores e regiões. Ao combinar abertura, rigor técnico e software prático, o ExioML ajuda a mover a contabilidade de carbono de um mosaico de estimativas privadas para uma ciência mais reprodutível e guiada por dados.

Citação: Guo, Y., Guan, C. & Ma, J. Global emission factor dataset for Scope 3 machine learning applications. Sci Data 13, 348 (2026). https://doi.org/10.1038/s41597-026-06699-1

Palavras-chave: Emissões de Escopo 3, contabilidade de carbono, análise input–output, aprendizado de máquina, emissões da cadeia de suprimentos