Clear Sky Science · ru

Глобальный набор коэффициентов выбросов для приложений машинного обучения в рамках Scope 3

· Назад к списку

Почему важно отслеживать скрытый углерод

Большая часть климатического воздействия современных компаний исходит не от их собственных дымовых труб, а от длинных, переплетённых цепочек поставок — всего, что они покупают, продают, перевозят и передают на аутсорсинг. Так называемые выбросы «Scope 3» особенно трудно отслеживать. В статье представлен ExioML — открытый глобальный набор данных и инструментарий, который превращает десятилетия сложных экономических и экологических записей в данные, готовые для машинного обучения. Это значительно упрощает задачу для исследователей, политиков и бизнеса: оценивать, откуда действительно происходят выбросы, справедливо сравнивать методы и разрабатывать более умные климатические решения.

Figure 1
Figure 1.

Видеть мировую экономику как сеть

В основе ExioML — подход, рассматривающий мировую экономику как гигантскую сеть отраслей, торгующих друг с другом через границы. Вместо того чтобы просто считать, сколько углерода освобождается внутри страны, этот подход прослеживает след выбросов вдоль цепочек поставок: от сырья, через заводы и магазины, до конечных потребителей. Существующие базы данных для таких расчётов мощны, но часто находятся за платными доступами, сложны в использовании или устарели. Авторы опираются на один из самых подробных открытых ресурсов, EXIOBASE, и реорганизуют его так, чтобы любой мог легко задавать вопросы вроде: сколько парниковых газов связано с производством стали в заданной стране и году, или как выбросы в одном регионе встроены в продукты, потребляемые в другом.

Преобразование сырых данных в готовые для использования наборы

Исходные файлы EXIOBASE огромны — более 40 гигабайт таблиц, описывающих транзакции между сотнями секторов в десятках регионов, а также параллельные записи по выбросам, ресурсам и энергопотреблению. Авторы проектируют ExioML так, чтобы сгладить эту сложность в двух основных элементах. Первый — таблица «коэффициентов учёта»: аккуратно структурированная таблица, в которой каждая строка соответствует конкретному сектору в конкретном регионе и году, с колонками для добавленной стоимости, рабочих мест, потребления энергии и объёма парниковых газов. Второй — «сеть следов»: упрощённая карта наиболее значимых торговых связей между секторами, показывающая, как деньги, энергия и выбросы текут по глобальной экономике. Для их получения они используют графические процессоры (GPU) высокой производительности для выполнения требовательных матричных расчётов, прослеживающих выбросы по цепочкам поставок, и стандартизируют единицы измерения, коды секторов и наименования, чтобы можно было напрямую сравнивать все 49 регионов и 28 лет.

Figure 2
Figure 2.

Создано для современного машинного обучения

ExioML спроектирован с учётом потребностей машинного обучения. Набор охватывает 49 регионов с 1995 по 2022 год и предлагает два совместимых представления: одно разбито на 200 типов продуктов, другое — на 163 отрасли. Такая структура позволяет исследователям рассматривать каждый «сектор–регион–год» как отдельную точку данных, комбинируя простые числовые признаки — например, население, доход на душу, энергию на единицу выпуска или выбросы на единицу энергии — с категориальной информацией о местоположении и типе сектора. Авторы также публикуют пакет с открытым исходным кодом, который может загружать данные, генерировать сводки сети и даже предоставлять заранее подготовленные разбиения для обучения, валидации и тестирования. Это снижает барьеры как для климатологов, так и для специалистов по данным, которые хотят строить модели, не становясь при этом экспертами в специализированном экономическом учёте.

Тестирование способности моделей предсказывать выбросы

Чтобы показать, как можно использовать ExioML, авторы подготовили эталонную задачу: прогнозирование выбросов парниковых газов сектора по небольшому набору экономических и энергетических индикаторов. Они сравнивают классические модели машинного обучения, такие как ближайшие соседи и ансамбли на основе деревьев, с современными подходами глубокого обучения, которые могут автоматически выявлять комбинации признаков. После тщательной очистки данных, масштабирования и разбиения они обнаружили, что простые линейные модели справляются плохо, подтверждая, что взаимосвязь между производством, рабочими местами, потреблением энергии и выбросами сильно нелинейна. Методы на основе деревьев и нейронные сети показывают хорошую работу, при этом управляемая (gated) нейронная модель достигает наилучшей точности. Однако улучшение по сравнению с хорошо настроенными градиентными бустинг-деревьями невелико, в то время как глубокие модели требуют намного больше времени на обучение и сложнее в тонкой настройке.

Что это значит для работы с климатом и данными

Для неспециалистов ключевая мысль такова: ExioML превращает непрозрачную путаницу глобальных экономических и экологических данных в общую, открытую базу, на которой может строиться дальнейшая работа. Компании, пытающиеся понять климатическое воздействие своих закупок; исследователи, разрабатывающие алгоритмы для выявления зон с высокими выбросами; аналитики, изучающие, как политика или технологические изменения могут сместить будущие выбросы — все они могут работать с одним прозрачным ресурсом. Исследование показывает, что при правильной структуре даже относительно простые инструменты машинного обучения могут уловить большую часть скрытых закономерностей в распределении выбросов по секторам и регионам. Объединив открытость, техническую строгость и практическое программное обеспечение, ExioML помогает перевести углеродный учёт от заплаточной сети частных оценок к более воспроизводимой, основанной на данных науке.

Цитирование: Guo, Y., Guan, C. & Ma, J. Global emission factor dataset for Scope 3 machine learning applications. Sci Data 13, 348 (2026). https://doi.org/10.1038/s41597-026-06699-1

Ключевые слова: Выбросы Scope 3, углеродный учёт, анализ «вход–выход», машинное обучение, выбросы цепочки поставок