Clear Sky Science · ru
От данных к решениям: использование объяснимого ИИ для прогнозирования урожайности сои в крупнейших странах-производителях
Почему важны более точные прогнозы урожая
От цен в супермаркетах до мировой торговли — скромная соя играет удивительно большую роль в повседневной жизни. Правительствам, трейдерам и фермерам нужно знать, каким будет урожай за месяцы до входа комбайнов в поля. Сегодня мощные инструменты искусственного интеллекта (ИИ) могут просеивать гигабайты погодных и спутниковых данных, чтобы делать такие прогнозы — но многие модели ведут себя как «черные ящики», почти не объясняя, почему они выдают тот или иной результат. В этом исследовании рассматривается новый тип объяснимого ИИ, который не только прогнозирует урожайность сои в ведущих странах-производителях, но и наглядно показывает, какие факторы определяют эти прогнозы.

Три страны, которые кормят мир
Авторы сосредоточили внимание на трёх странах, доминирующих в мировом производстве сои: США, Бразилии и Аргентине, которые вместе дают более 80 % мировой продукции. Они провели анализ на мелком масштабе — по округам в США и эквивалентным малым регионам в Бразилии и Аргентине — используя данные за 2018–2022 годы. Для каждого региона была собрана подробная картина условий выращивания: детальные погодные ряды, свойства почв и несколько видов спутниковых данных, отслеживающих рост растений, водный статус и даже слабое свечение, связанное с фотосинтезом — солнечно-индуцированную флуоресценцию хлорофилла (SIF). Всего было извлечено 154 числовых признака, описывающих каждый вегетационный сезон, прежде чем их подали в модели.
От конвейеров данных к обучающим машинам
Чтобы обработать этот поток информации, команда создала стандартизованный конвейер обработки. Они выровняли все наборы данных по пространству и времени с учётом календарей посевов, сгладили шумные спутниковые сигналы и суммировали вегетационный сезон с помощью статистик, таких как средние значения, экстремумы и изменчивость. Затем они обучили три типа моделей для прогнозирования урожайности: Random Forest (RF), широко используемый метод машинного обучения; MLP (многослойный перцептрон), классическая глубокая нейронная сеть; и Kolmogorov–Arnold Networks (KAN), более новая архитектура, разработанная с прицелом на улучшенную интерпретируемость. Чтобы избежать самообмана из‑за чрезмерно оптимистичных оценок, авторы аккуратно разбили данные на пространственные блоки, чтобы тестировать модели на регионах, которых те не «видели» при обучении.
Открывая черный ящик ИИ
Особенность этой работы — не только точность прогнозов, но и то, как модели объясняют свои решения. RF и MLP исследовали с помощью стандартных инструментов, показывающих, насколько каждый входной признак важен для предсказаний. KAN пошла дальше: она представляет связи между входами и выходами в виде гладких одномерных кривых, которые можно построить и исследовать. Это позволяет исследователям буквально увидеть, как, например, изменение SIF или влажности почвы сдвигает прогноз урожайности вверх или вниз. В разных странах и для разных методов выявилась общая закономерность — SIF, спутниковый сигнал, напрямую связанный с фотосинтезом, последовательно входил в число самых важных предикторов урожайности сои. Другие ключевые факторы варьировались по регионам: в США выделялись связанные с водой вегетационные индикаторы, тогда как в Бразилии и Аргентине более сильную роль играли температура и влажность почвы.

Насколько хорошо работали модели?
При сравнении точности моделей ни один метод не выиграл повсеместно. В США, где урожайность была относительно стабильной из года в год, Random Forest показал несколько лучшие результаты в целом, однако KAN и MLP шли примерно вровень. В Бразилии с более изменчивой урожайностью и большим объёмом данных все три модели достигли высокой точности, хотя им было сложнее предсказывать очень высокие урожаи. В Аргентине, где данных было меньше, KAN в целом превосходила глубокую модель (MLP) и приближалась к Random Forest. Эти результаты указывают на то, что KAN может соперничать с традиционными моделями на сложных небольших аграрных наборах данных, при этом обеспечивая гораздо большую прозрачность в объяснении своих выводов.
Что это значит для фермеров и продовольственной безопасности
Для практических лиц, принимающих решения, возможность доверять модели может быть столь же важна, как и сама точность. Исследование показывает, что объяснимые подходы к ИИ, такие как KAN, способны давать конкурентоспособные прогнозы урожайности сои, при этом ясно показывая, какие экологические и агроиндикаторы имеют наибольшее значение. Такая прозрачность помогает учёным диагностировать ошибки, интегрировать экспертные агрономические знания и адаптировать модели к новым регионам или меняющемуся климату. В долгосрочной перспективе такие открытые инструменты могут быть встроены в национальные системы мониторинга посевов, давая фермерам, планировщикам и рынкам более ранние и надёжные сигналы о плохих или богатых урожаях — и поддерживая более устойчивые продовольственные системы.
Цитирование: Wang, X., He, Y., Chen, H. et al. From data to decisions: the use of explainable AI to forecast soybean yield in major producing countries. Sci Rep 16, 5103 (2026). https://doi.org/10.1038/s41598-026-35716-x
Ключевые слова: прогноз урожайности сои, объяснимый ИИ, дистанционное зондирование, агрономическое моделирование, продовольственная безопасность