Clear Sky Science · fr
Prédiction du microbiome du sol à l’aide de modèles classiques d’apprentissage automatique et d’apprentissage profond
Pourquoi la vie microscopique du sol compte
Chaque cuillère de sol contient un monde grouillant de bactéries et de champignons qui, discrètement, alimentent notre production alimentaire, stockent du carbone et recyclent les nutriments. Pourtant, nous avons encore du mal à prédire quels microbes occuperont quels lieux, ou comment ils réagiront aux changements climatiques et d’usage des terres. Cette étude pose une question pratique : les modèles informatiques modernes, entraînés sur des mesures environnementales basiques comme la température, les précipitations et la chimie du sol, peuvent‑ils prévoir de façon fiable la composition de ces communautés cachées ?

Le big data à la rencontre du monde souterrain
Les chercheurs se sont concentrés sur le microbiome du sol, la vaste communauté de microorganismes vivant dans la terre, et l’ont traité comme un système potentiellement prévisible à partir de son environnement. En utilisant deux grands jeux de données publics issus d’enquêtes mondiales sur les sols et du National Ecological Observatory Network (NEON) des États‑Unis, ils ont assemblé des informations sur les communautés bactériennes et fongiques ainsi que des mesures telles que le pH du sol, le contenu en carbone et en azote, le climat et la végétation. Plutôt que de suivre chaque espèce individuelle, ils ont regroupé les microbes en catégories plus larges : niveaux taxonomiques comme le phylum, la classe, l’ordre, la famille et le genre, et groupes fonctionnels décrivant ce que font les microbes, par exemple le cycle du carbone ou de l’azote.
Tester différentes façons d’apprendre à partir des données
Pour convertir les mesures environnementales en prédictions de composition communautaire, l’équipe a comparé sept approches de modélisation. Six étaient des méthodes « classiques » d’apprentissage automatique largement utilisées, incluant la régression linéaire, les arbres de décision, les forêts aléatoires, le gradient boosting et les k-plus proches voisins. La septième était un modèle d’apprentissage profond appelé perceptron multicouche, un type de réseau de neurones. Pour chaque jeu de données et chaque niveau taxonomique ou fonctionnel, les modèles ont été entraînés sur la plupart des échantillons puis sollicités pour prédire les abondances relatives des groupes microbiens dans de nouveaux échantillons de sol non vus. La précision de ces prédictions a été mesurée par une statistique standard (R²) qui reflète la part de la variation observée que le modèle parvient à expliquer.

Des motifs à différentes échelles dans la communauté du sol
Un schéma clair est apparu : il est plus facile de prédire des regroupements larges de microbes que de prévoir les détails fins. Pour les bactéries comme pour les champignons, les modèles ont généralement donné leurs meilleurs résultats aux niveaux taxonomiques supérieurs, tels que le phylum et la classe, et sont devenus moins précis lorsqu’il s’agissait de distinguer des catégories plus fines comme la famille et le genre. Cela suggère que si le mélange exact de microbes proches peut être difficile à anticiper, la structure générale de la communauté est davantage liée à l’environnement. Une exception a été observée pour les groupes fonctionnels bactériens dans un jeu de données, où aucun modèle n’a correctement capturé les motifs, sans doute parce que les catégories fonctionnelles choisies ne reflétaient pas pleinement la complexité réelle des rôles microbiens.
Quels modèles ont le mieux fonctionné et pourquoi
Parmi toutes les approches testées, deux méthodes classiques — les forêts aléatoires et les k-plus proches voisins — ont donné de manière constante les meilleures prédictions. Les forêts aléatoires ont excellé aux niveaux taxonomiques plus larges, tandis que les k-plus proches voisins se sont révélés particulièrement efficaces aux niveaux plus détaillés de la famille et du genre. Le gradient boosting a parfois égalé ou dépassé ces modèles, notamment pour les groupes fonctionnels fongiques, mais ses performances ont davantage varié selon les niveaux. Fait surprenant, le réseau de neurones en apprentissage profond a rarement surpassé ces méthodes plus simples. Les auteurs expliquent que c’est principalement parce que l’apprentissage profond requiert généralement beaucoup plus de données d’entraînement que les quelques centaines à quelques milliers d’échantillons de sol disponibles ici. Globalement, les communautés bactériennes ont été plus faciles à prédire que les communautés fongiques, et les jeux de données comportant plus d’échantillons ont fourni de meilleurs résultats.
Ce que cela signifie pour la gestion des sols
L’étude montre que, même avec des données imparfaites aujourd’hui, l’apprentissage automatique peut déjà fournir des prévisions raisonnablement bonnes des communautés microbiennes du sol à un niveau global. C’est encourageant pour les efforts de gestion des sols en agriculture, restauration et atténuation du climat, car cela suggère que l’on peut utiliser des mesures environnementales relativement simples pour anticiper les changements d’ensemble dans le monde souterrain. En revanche, la difficulté à prévoir les détails fins et certains groupes fonctionnels souligne combien nous ignorons encore de choses sur les organismes du sol et leurs fonctions. Des jeux de données plus grands et de meilleure qualité ainsi que des descriptions plus riches des fonctions microbiennes seront nécessaires avant que l’apprentissage profond et d’autres outils avancés puissent atteindre tout leur potentiel pour guider la prise en charge du sol vivant sous nos pieds.
Citation: Aouabed, Z., Therrien, V., Bouaoune, M.A. et al. Soil microbiome prediction using traditional machine learning and deep learning models. Sci Rep 16, 11069 (2026). https://doi.org/10.1038/s41598-026-39537-w
Mots-clés: microbiome du sol, apprentissage automatique, bactéries et champignons, gradients environnementaux, prédiction de communauté