Clear Sky Science · es
Conjunto de datos global de factores de emisión para aplicaciones de aprendizaje automático en Alcance 3
Por qué importa rastrear el carbono oculto
La mayor parte del impacto climático de las empresas modernas no proviene de sus propias chimeneas, sino de largas y enmarañadas cadenas de suministro: todo lo que compran, venden, transportan y subcontratan. Estas llamadas emisiones de “Alcance 3” son notoriamente difíciles de rastrear. El artículo presenta ExioML, un conjunto de datos y un conjunto de herramientas globales y abiertos que convierten décadas de registros económicos y ambientales complejos en datos listos para aprendizaje automático. Esto facilita mucho a investigadores, responsables de políticas y empresas estimar de dónde provienen realmente las emisiones, comparar métodos de forma justa y diseñar soluciones climáticas más inteligentes.

Ver la economía mundial como una red
En el núcleo de ExioML está una forma de ver la economía mundial como una gigantesca red de industrias que comercian entre sí a través de fronteras. En lugar de limitarse a contabilizar cuánto carbono se libera dentro de un país, este enfoque sigue la pista de las emisiones a lo largo de las cadenas de suministro: desde las materias primas, a las fábricas, a las tiendas y, finalmente, a los consumidores. Las bases de datos existentes que hacen esto son potentes pero a menudo están tras muros de pago, son difíciles de usar o están desactualizadas. Los autores se basan en uno de los recursos abiertos más detallados, EXIOBASE, y lo reorganizan para que cualquiera pueda plantear con facilidad preguntas como: cuánto gas de efecto invernadero está vinculado a la producción de acero en un país y año determinados, o cómo las emisiones de una región están incorporadas en productos consumidos en otra parte.
Transformar números crudos en datos listos para usar
Los archivos crudos de EXIOBASE son enormes: más de 40 gigabytes de tablas que describen transacciones entre cientos de sectores en docenas de regiones, además de registros paralelos de emisiones, recursos y uso de energía. Los autores diseñan ExioML para destilar esa complejidad en dos piezas principales. La primera es una tabla de «contabilidad de factores»: una hoja de cálculo bien estructurada donde cada fila es un sector específico en una región y año concretos, con columnas para valor añadido, empleos, uso de energía y emisiones de gases de efecto invernadero. La segunda es una «red de huella»: un mapa simplificado de los enlaces comerciales más fuertes entre sectores, que muestra cómo fluyen el dinero, la energía y las emisiones a través de la economía global. Para producirlos, recurren a unidades de procesamiento gráfico (GPUs) de alto rendimiento para triturar los exigentes cálculos matriciales que rastrean las emisiones a lo largo de las cadenas de suministro, y estandarizan unidades, códigos de sector y nombres para que las 49 regiones y 28 años puedan compararse directamente.

Diseñado para el aprendizaje automático moderno
ExioML está diseñado desde cero con el aprendizaje automático en mente. El conjunto de datos cubre 49 regiones desde 1995 hasta 2022 y ofrece dos vistas compatibles: una desglosada en 200 tipos de productos y otra en 163 industrias. Esta estructura permite a los investigadores tratar cada sector–región–año como un punto de datos, combinando características numéricas simples—como población, ingreso por persona, energía por unidad de producción o emisiones por unidad de energía—con información categórica sobre dónde y qué es el sector. Los autores también publican un paquete de software de código abierto que puede cargar los datos, generar resúmenes de la red e incluso suministrar particiones listas para entrenamiento, validación y prueba. Esto reduce la barrera tanto para científicos del clima como para científicos de datos que quieran construir modelos sin tener que convertirse primero en expertos en contabilidad económica especializada.
Probar qué tan bien los modelos pueden predecir las emisiones
Para mostrar cómo puede usarse ExioML, los autores establecen una tarea de referencia: predecir las emisiones de gases de efecto invernadero de un sector a partir de un pequeño conjunto de indicadores económicos y relacionados con la energía. Comparan modelos clásicos de aprendizaje automático, como los vecinos más cercanos y los ensamblados basados en árboles, con enfoques modernos de aprendizaje profundo que pueden aprender automáticamente combinaciones de características. Tras una limpieza, escalado y particionado cuidadosos de los datos, encuentran que los modelos lineales simples tienen dificultades, lo que confirma que la relación entre producción, empleos, uso de energía y emisiones es altamente no lineal. Los métodos basados en árboles y las redes neuronales rinden bien, con un modelo neuronal con puertas alcanzando la mejor precisión. Sin embargo, la mejora respecto a árboles potenciados por gradiente bien ajustados es modesta, mientras que los modelos profundos tardan mucho más en entrenarse y son más difíciles de ajustar finamente.
Qué significa esto para el trabajo climático y de datos
Para los no especialistas, el mensaje clave es que ExioML convierte un enredo opaco de datos económicos y ambientales globales en una base compartida y abierta sobre la que cualquiera puede construir. Empresas que intentan entender el impacto climático de sus compras, investigadores que diseñan algoritmos para detectar puntos calientes de altas emisiones y analistas que exploran cómo cambios en políticas o tecnologías podrían desplazar las emisiones futuras pueden trabajar todos a partir del mismo recurso transparente. El estudio muestra que con la estructura adecuada, incluso herramientas de aprendizaje automático relativamente sencillas pueden capturar gran parte del patrón oculto en las emisiones entre sectores y regiones. Al combinar apertura, rigor técnico y software práctico, ExioML ayuda a mover la contabilidad de carbono de un mosaico de estimaciones privadas hacia una ciencia más reproducible y basada en datos.
Cita: Guo, Y., Guan, C. & Ma, J. Global emission factor dataset for Scope 3 machine learning applications. Sci Data 13, 348 (2026). https://doi.org/10.1038/s41597-026-06699-1
Palabras clave: Emisiones de Alcance 3, contabilidad de carbono, análisis input–output, aprendizaje automático, emisiones de la cadena de suministro