Clear Sky Science · nl

Voorspelling van het bodemmicrobioom met traditionele machine learning- en deep learning-modellen

· Terug naar het overzicht

Waarom het kleine leven in de bodem ertoe doet

Elke theelepel grond herbergt een bruisende wereld van bacteriën en schimmels die stilletjes onze voedselproductie aandrijven, koolstof opslaan en voedingsstoffen recyclen. Toch hebben we nog moeite te voorspellen welke microben waar zullen voorkomen, of hoe ze reageren wanneer klimaat en landgebruik veranderen. Deze studie stelt een praktische vraag: kunnen moderne computermodellen, getraind op eenvoudige omgevingsmetingen zoals temperatuur, neerslag en bodemchemie, betrouwbaar samenstellingen van deze verborgen gemeenschappen voorspellen?

Figure 1
Figure 1.

Big data ontmoet de ondergrondse wereld

De onderzoekers richtten zich op het bodemmicrobioom, de uitgestrekte gemeenschap van micro-organismen in de grond, en beschouwden het als een systeem dat mogelijk voorspelbaar is vanuit zijn omgeving. Met twee grote openbare datasets—wereldwijde bodemenquêtes en het U.S. National Ecological Observatory Network (NEON)—stelden ze gegevens samen over bacteriële en schimmelgemeenschappen naast metingen zoals bodem-pH, koolstof- en stikstofgehalte, klimaat en vegetatie. In plaats van elke soort afzonderlijk te volgen, groepeerden ze microben in bredere categorieën: taxonomische niveaus zoals phylum, klasse, orde, familie en geslacht, en functionele groepen die beschrijven wat microben doen, zoals het cycli­ren van koolstof of stikstof.

Verschillende manieren om van data te leren testen

Om omgevingsmetingen om te zetten in voorspellingen van gemeenschaps­samenstelling vergeleek het team zeven computer­modelleerbenaderingen. Zes waren veelgebruikte "traditionele" machine learning-methoden, waaronder lineaire regressie, beslissingsbomen, random forests, gradient boosting en k-nearest neighbors. De zevende was een deep learning-model genaamd multilayer perceptron, een type neuraal netwerk. Voor elke dataset en elk taxonomisch of functioneel niveau werden de modellen getraind op het merendeel van de monsters en vervolgens gevraagd de relatieve abundantie van microbie­le groepen in nieuwe, niet eerder geziene bodemonsters te voorspellen. De nauwkeurigheid van deze voorspellingen werd gemeten met een standaardstatistiek (R²) die aangeeft hoeveel van de variatie in de echte wereld het model kan verklaren.

Figure 2
Figure 2.

Patronen over schalen in de bodemgemeenschap

Er ontstond een duidelijk patroon: het is makkelijker om brede groepen microben te voorspellen dan fijne details. Voor zowel bacteriën als schimmels presteerden modellen over het algemeen het best op hogere taxonomische niveaus, zoals phylum en klasse, en werden ze minder nauwkeurig naarmate ze kleinere categorieën zoals familie en geslacht probeerden te onderscheiden. Dit suggereert dat hoewel de exacte samenstelling van nauw verwante microben moeilijk te voorspellen is, de algemene structuur van de gemeenschap sterker met de omgeving is verbonden. Een uitzondering deed zich voor bij bacteriële functionele groepen in één dataset, waar geen van de modellen de patronen goed vastlegde, waarschijnlijk omdat de gekozen functionele categorieën de werkelijke complexiteit van microbie­le rollen niet volledig weerspiegelden.

Welke modellen werkten het beste en waarom

Van alle benaderingen die werden getest, leverden twee traditionele methoden—random forest en k-nearest neighbors—consistente de beste voorspellingen. Random forests blonken uit op bredere taxonomische niveaus, terwijl k-nearest neighbors vooral effectief was op meer gedetailleerde familie- en geslachtsniveaus. Gradient boosting kwam soms in de buurt of presteerde beter, met name voor functionele groepen van schimmels, maar de prestaties varieerden meer tussen de niveaus. Verrassend genoeg overtrof het diepe neuraal netwerk zelden deze eenvoudigere methoden. De auteurs stellen dat dit grotendeels komt doordat deep learning doorgaans veel meer trainingsdata nodig heeft dan de enkele honderden tot een paar duizend bodemonsters die hier beschikbaar waren. Over het geheel genomen waren bacteriële gemeenschappen makkelijker te voorspellen dan schimmelgemeenschappen, en datasets met meer monsters gaven betere resultaten.

Wat dit betekent voor bodembeheer

De studie laat zien dat machine learning, zelfs met de huidige onvolmaakte data, al redelijk goede voorspellingen kan geven van bodemmicrobie­le gemeenschappen op brede schaal. Dat is bemoedigend voor pogingen om bodems te beheren voor landbouw, herstel en klimaatactie, omdat het suggereert dat we met relatief eenvoudige omgevingsmetingen grootschalige verschuivingen in de ondergrondse wereld kunnen anticiperen. Tegelijkertijd benadrukt de moeilijkheid om fijnmazige details en bepaalde functionele groepen te voorspellen hoeveel we nog niet weten over bodemorganismen en hun rollen. Betere, grotere datasets en rijkere beschrijvingen van microbie­le functies zullen nodig zijn voordat deep learning en andere geavanceerde hulpmiddelen hun volledige potentieel kunnen bereiken bij het sturen van hoe we zorgen voor de levende bodem onder onze voeten.

Bronvermelding: Aouabed, Z., Therrien, V., Bouaoune, M.A. et al. Soil microbiome prediction using traditional machine learning and deep learning models. Sci Rep 16, 11069 (2026). https://doi.org/10.1038/s41598-026-39537-w

Trefwoorden: bodemmicrobioom, machine learning, bacteriën en schimmels, omgevingsgradiënten, gemeenschapsvoorspelling