Clear Sky Science · zh

使用传统机器学习和深度学习模型预测土壤微生物组

· 返回目录

为什么土壤中微小生命很重要

每一茶匙土壤都蕴含着一个繁盛的细菌和真菌世界,它们默默地推动我们的粮食生产、储存碳并循环养分。然而,我们仍难以预测哪些微生物会出现在何处,或在气候与土地利用变化下如何响应。本研究提出一个务实的问题:能否用现代计算模型,基于诸如温度、降雨和土壤化学等基本环境测量,可靠地预测这些隐秘群落的组成?

Figure 1
Figure 1.

大数据遇见地下世界

研究者将关注点放在土壤微生物组——生活在土壤中的庞大微生物群落——并把它视为一个可能可由环境条件预测的系统。研究利用来自全球土壤调查和美国国家生态观测网(NEON)的两个大型公共数据集,汇集了细菌和真菌群落的信息以及土壤酸碱度、碳氮含量、气候和植被等测量数据。研究没有追踪每一个物种,而是将微生物按更广泛的类别进行分组:如门、纲、目、科、属等分类学水平,以及描述微生物功能的功能组,例如参与碳或氮循环的群体。

测试不同的数据学习方法

为了将环境测量转换为群落组成的预测,团队比较了七种计算建模方法。其中六种是广泛使用的“传统”机器学习方法,包括线性回归、决策树、随机森林、梯度提升和k近邻。第七种是称为多层感知器的深度学习模型,一类神经网络。对于每个数据集和每个分类学或功能水平,模型在大多数样本上进行训练,然后用于预测新、未见过的土壤样本中微生物群体的相对丰度。预测准确性用一种标准统计量(R²)来衡量,该指标反映模型可解释现实世界变异的程度。

Figure 2
Figure 2.

土壤群落中跨尺度的模式

一个清晰的模式浮现:预测广义微生物分组比预测细节更容易。对于细菌和真菌而言,模型通常在更高的分类学水平(如门与纲)上表现最好,随着试图区分更小的类别(如科和属),准确性下降。这表明,尽管难以预见紧密相关微生物的确切组合,但群落的总体结构与环境的联系更为紧密。一个例外出现在一个数据集的细菌功能组上,所有模型都未能很好地捕捉其模式,可能是因为所选的功能类别未能充分反映微生物角色的真实复杂性。

哪些模型表现最好及其原因

在所有测试方法中,两种传统方法——随机森林和k近邻——持续给出最强的预测。随机森林在更高的分类学水平上表现突出,而k近邻在更细的科与属水平上尤其有效。梯度提升有时可以与这些模型匹敌或超过它们,尤其是在真菌功能组上,但其性能在不同水平间波动更大。令人惊讶的是,深度学习神经网络很少优于这些更简单的方法。作者认为,这在很大程度上是因为深度学习通常需要远多于此处可用的几百到几千个土壤样本的训练数据。总体而言,细菌群落比真菌群落更容易预测,样本更多的数据集也能产生更好的结果。

这对土壤管理意味着什么

研究表明,即使在当今尚不完善的数据条件下,机器学习已经能够在较广的层面上对土壤微生物群落做出相当不错的预测。对于农业、生态恢复和气候缓解等土壤管理工作来说,这是令人鼓舞的,因为它表明我们可以用相对简单的环境测量来预见地下世界的大体变化。与此同时,对细尺度细节和某些功能组预测的困难也凸显出我们对土壤生物及其作用的认知仍有很大不足。在深度学习和其他先进工具能充分发挥指导我们如何照料脚下这一有生命的土壤的潜力之前,需要更好、更大规模的数据集以及更丰富的微生物功能描述。

引用: Aouabed, Z., Therrien, V., Bouaoune, M.A. et al. Soil microbiome prediction using traditional machine learning and deep learning models. Sci Rep 16, 11069 (2026). https://doi.org/10.1038/s41598-026-39537-w

关键词: 土壤微生物组, 机器学习, 细菌和真菌, 环境梯度, 群落预测