Clear Sky Science · ru

Прогнозирование почвенного микробиома с помощью традиционного машинного обучения и моделей глубокого обучения

· Назад к списку

Почему важна крошечная жизнь в почве

Каждая чайная ложка почвы содержит бурлящий мир бактерий и грибов, которые тихо поддерживают наше производство пищи, накапливают углерод и перерабатывают питательные вещества. Тем не менее нам по-прежнему трудно предсказать, какие микробы будут обитать в тех или иных местах и как они отреагируют на изменения климата и землепользования. В этом исследовании задается практический вопрос: могут ли современные компьютерные модели, обученные на базовых экологических измерениях, таких как температура, осадки и химический состав почвы, надежно прогнозировать состав этих скрытых сообществ?

Figure 1
Figure 1.

Большие данные встречают подземный мир

Исследователи сосредоточились на почвенном микробиоме — огромном сообществе микроорганизмов, живущих в почве — и рассматривали его как систему, поддающуюся прогнозированию по окружающим условиям. Используя два больших общедоступных набора данных: глобальные почвенные обследования и данные Национальной сети экологических наблюдений США (NEON), они собрали информацию о бактериальных и грибных сообществах вместе с измерениями такими, как pH почвы, содержание углерода и азота, климат и растительность. Вместо того чтобы отслеживать каждую отдельную таксономическую единицу, микробов сгруппировали по более широким категориям: таксономическим уровням — тип, класс, отряд, семейство и род — и функциональным группам, которые описывают, чем занимаются микроорганизмы, например циклированием углерода или азота.

Тестирование разных подходов обучения на данных

Чтобы превратить экологические измерения в прогнозы состава сообществ, команда сравнила семь подходов к моделированию. Шесть из них — широко используемые «традиционные» методы машинного обучения, включая линейную регрессию, деревья решений, случайные леса, градиентный бустинг и метод k ближайших соседей. Седьмой — модель глубокого обучения, называемая многослойным перцептроном, тип нейронной сети. Для каждого набора данных и каждого таксономического или функционального уровня модели обучали на большинстве образцов, а затем просили предсказать относительную численность микробных групп в новых, ранее не встречавшихся почвенных образцах. Точность этих прогнозов оценивали по стандартной статистике (R²), отражающей долю реальной изменчивости, которую модель может объяснить.

Figure 2
Figure 2.

Шаблоны на разных масштабах в почвенном сообществе

Проявился четкий паттерн: предсказать широкие группы микробов легче, чем предсказать тонкие детали. Для бактерий и грибов модели в целом показывали лучшие результаты на более высоких таксономических уровнях, таких как тип и класс, и становились менее точными по мере перехода к более мелким категориям — семьям и родам. Это указывает на то, что хотя точный состав близкородственных микробов предсказать сложно, общая структура сообщества сильнее связана с окружающей средой. Исключение наблюдалось для бактериальных функциональных групп в одном из наборов данных, где ни одна из моделей плохо уловила закономерности, вероятно, потому что выбранные функциональные категории не полностью отражали реальную сложность микробных ролей.

Какие модели сработали лучше и почему

Из всех протестированных подходов две традиционные методы — случайный лес и k ближайших соседей — последовательно давали наиболее сильные прогнозы. Случайные леса особенно преуспевали на более широких таксономических уровнях, тогда как метод k ближайших соседей был особенно эффективен на более детализированных уровнях, таких как семейство и род. Градиентный бустинг иногда сравнивался или превосходил эти модели, особенно для функциональных групп грибов, но его производительность сильнее варьировала между уровнями. Удивительно, что нейронная сеть глубокого обучения редко превосходила эти более простые методы. Авторы объясняют это во многом тем, что глубокое обучение обычно требует значительно большего объема обучающих данных, чем несколько сотен — пара тысяч образцов почвы, доступных в этом исследовании. В целом бактерий предсказать было проще, чем грибов, а наборы данных с большим количеством образцов давали лучшие результаты.

Что это значит для управления почвами

Исследование показывает, что даже при нынешних неполных данных машинное обучение уже может давать достаточно хорошие прогнозы состава почвенных микробных сообществ на широких уровнях. Это обнадеживает для усилий по управлению почвами в сельском хозяйстве, восстановлении и смягчении климатических изменений, поскольку позволяет предположить, что относительно простые экологические измерения могут предвосхитить крупномасштабные сдвиги в подземном мире. В то же время трудности с прогнозированием тонких деталей и некоторых функциональных групп подчеркивают, насколько многое еще неизвестно о почвенных организмах и их ролях. Для того чтобы глубокое обучение и другие продвинутые инструменты могли реализовать свой полный потенциал в управлении живой почвой под нашими ногами, потребуются лучшие, более крупные наборы данных и более богатые описания микробных функций.

Цитирование: Aouabed, Z., Therrien, V., Bouaoune, M.A. et al. Soil microbiome prediction using traditional machine learning and deep learning models. Sci Rep 16, 11069 (2026). https://doi.org/10.1038/s41598-026-39537-w

Ключевые слова: почвенный микробиом, машинное обучение, бактерии и грибы, экологические градиенты, прогнозирование сообществ