Clear Sky Science · pt
Previsão do microbioma do solo usando modelos tradicionais de aprendizado de máquina e de aprendizado profundo
Por que a vida minúscula no solo importa
Cada colher de chá de solo abriga um mundo fervilhante de bactérias e fungos que silenciosamente alimentam nossa produção de alimentos, armazenam carbono e reciclam nutrientes. Ainda assim, continuamos com dificuldades para prever quais microrganismos viverão em cada lugar ou como responderão às mudanças climáticas e no uso da terra. Este estudo faz uma pergunta prática: modelos computacionais modernos, treinados com medições ambientais básicas como temperatura, precipitação e química do solo, conseguem prever de forma confiável a composição dessas comunidades ocultas?

Big data encontra o mundo subterrâneo
Os pesquisadores focaram no microbioma do solo, a vasta comunidade de microrganismos que vive na terra, e o trataram como um sistema que poderia ser previsível a partir de seu entorno. Usando dois grandes conjuntos de dados públicos de levantamentos globais de solo e da National Ecological Observatory Network (NEON) dos EUA, eles reuniram informações sobre comunidades bacterianas e fúngicas junto com medições como pH do solo, conteúdo de carbono e nitrogênio, clima e vegetação. Em vez de rastrear cada espécie individual, agruparam micróbios em categorias mais amplas: níveis taxonômicos como filo, classe, ordem, família e gênero, e grupos funcionais que descrevem o que os micróbios fazem, como o ciclo do carbono ou do nitrogênio.
Testando diferentes formas de aprender com os dados
Para transformar medições ambientais em previsões da composição da comunidade, a equipe comparou sete abordagens de modelagem computacional. Seis eram métodos "tradicionais" de aprendizado de máquina amplamente usados, incluindo regressão linear, árvores de decisão, random forest, gradient boosting e k-vizinho mais próximo. O sétimo foi um modelo de aprendizado profundo chamado perceptron multicamadas, um tipo de rede neural. Para cada conjunto de dados e cada nível taxonômico ou funcional, os modelos foram treinados na maior parte das amostras e então solicitados a prever as abundâncias relativas de grupos microbianos em novas amostras de solo não vistas. A precisão dessas previsões foi medida com uma estatística padrão (R²) que reflete quanto da variação do mundo real o modelo consegue explicar.

Padrões em diferentes escalas na comunidade do solo
Surgiu um padrão claro: é mais fácil prever agrupamentos amplos de micróbios do que prever detalhes finos. Para bactérias e fungos, os modelos geralmente tiveram melhor desempenho em níveis taxonômicos mais altos, como filo e classe, e tornaram-se menos precisos ao tentar distinguir categorias menores como família e gênero. Isso sugere que, embora a mistura exata de micróbios estreitamente relacionados possa ser difícil de prever, a estrutura geral da comunidade está mais fortemente ligada ao ambiente. Uma exceção apareceu para grupos funcionais bacterianos em um dos conjuntos de dados, onde nenhum dos modelos capturou bem os padrões, provavelmente porque as categorias funcionais escolhidas não refletiam plenamente a complexidade real dos papéis microbianos.
Quais modelos funcionaram melhor e por quê
Entre todas as abordagens testadas, dois métodos tradicionais — random forest e k-vizinho mais próximo — forneceram consistentemente as melhores previsões. Random forests sobressaíram em níveis taxonômicos mais amplos, enquanto k-vizinho mais próximo foi especialmente eficaz nos níveis mais detalhados de família e gênero. O gradient boosting às vezes igualou ou superou esses modelos, particularmente para grupos funcionais fúngicos, mas seu desempenho variou mais de um nível para outro. Surpreendentemente, a rede neural de aprendizado profundo raramente superou esses métodos mais simples. Os autores argumentam que isso se deve em grande parte ao fato de que o aprendizado profundo normalmente requer muito mais dados de treino do que as poucas centenas a alguns milhares de amostras de solo disponíveis aqui. De modo geral, comunidades bacterianas foram mais fáceis de prever do que fúngicas, e conjuntos de dados com mais amostras produziram resultados melhores.
O que isso significa para o manejo do solo
O estudo mostra que, mesmo com os dados imperfeitos de hoje, o aprendizado de máquina já pode fornecer previsões razoavelmente boas das comunidades microbianas do solo em níveis amplos. Isso é encorajador para esforços de manejo de solos em agricultura, restauração e mitigação climática, porque sugere que podemos usar medições ambientais relativamente simples para antecipar mudanças de grande porte no mundo subterrâneo. Ao mesmo tempo, a dificuldade de prever detalhes em pequena escala e certos grupos funcionais destaca o quanto ainda não sabemos sobre os organismos do solo e seus papéis. Serão necessários conjuntos de dados melhores e maiores e descrições mais ricas das funções microbianas antes que o aprendizado profundo e outras ferramentas avançadas possam atingir todo seu potencial na orientação de como cuidar do solo vivo sob nossos pés.
Citação: Aouabed, Z., Therrien, V., Bouaoune, M.A. et al. Soil microbiome prediction using traditional machine learning and deep learning models. Sci Rep 16, 11069 (2026). https://doi.org/10.1038/s41598-026-39537-w
Palavras-chave: microbioma do solo, aprendizado de máquina, bactérias e fungos, gradientes ambientais, previsão de comunidade