Clear Sky Science · pt

Um quadro híbrido de seleção de variáveis e interpretabilidade para previsão de oxigênio dissolvido em estações de tratamento de água potável

· Voltar ao índice

Por que o oxigênio na água potável importa

Oxigênio dissolvido — as pequenas bolhas de gás oxigênio misturadas à água — influencia discretamente se nossa água potável permanece clara, segura e com bom gosto. Pouco oxigênio na água bruta pode liberar metais como ferro e manganês, favorecer microrganismos prejudiciais e tornar o tratamento mais difícil e caro. Este estudo mostra como o uso inteligente de dados operacionais reais e de técnicas modernas de aprendizado de máquina pode prever os níveis de oxigênio em uma grande estação de tratamento de água potável, ajudando os operadores a manter a qualidade da água elevada enquanto economizam tempo, energia e custos laboratoriais.

Dando fôlego ao tratamento de água

Em muitos reservatórios e rios, os níveis de oxigênio sobem e descem com as estações, a poluição e o movimento da água. Quando a água fica estagnada ou carregada de nutrientes, o oxigênio pode cair, criando condições que liberam substâncias indesejadas dos sedimentos e favorecem microrganismos problemáticos. Em estações de tratamento de água potável, manter níveis saudáveis de oxigênio é especialmente importante para filtros biológicos e para prevenir a liberação de metais e outros compostos de difícil remoção. Contudo, a maioria dos estudos anteriores focou rios ou estações de tratamento de efluentes, deixando uma lacuna de conhecimento para sistemas de água potável tratada, onde etapas do processo como coagulação, filtração e cloração alteram o comportamento do oxigênio de maneiras específicas.

Uma década de dados do rio até a torneira

Os pesquisadores utilizaram dez anos de registros diários de uma estação de tratamento em escala real em Ahvaz, Irã, que trata água do rio Karun para cerca de 450.000 pessoas. Eles usaram sete propriedades rotineiramente medidas da água de entrada filtrada — oxigênio dissolvido histórico, nitrito, cloreto, condutividade elétrica, turbidez, pH e temperatura — para prever o nível de oxigênio na bacia de saída da planta. Após checar cuidadosamente os dados, tratar outliers e padronizar as medidas, treinaram dois modelos populares de aprendizado de máquina baseados em árvores, Random Forest e XGBoost. Esses modelos aprendem padrões construindo muitas árvores de decisão e combinando seus resultados, permitindo capturar relações complexas e não lineares sem precisar de equações elaboradas à mão.

Figure 1
Figure 1.

Encontrando os sinais que mais importam

Um desafio central foi decidir quais das sete medições de entrada realmente direcionam o comportamento do oxigênio e quais adicionam ruído ou complexidade desnecessária. Em vez de confiar em um único método de classificação, a equipe construiu um pipeline de seleção “híbrido” que analisou os dados por várias abordagens. Informação Mútua destacou as variáveis mais fortemente ligadas ao oxigênio, a Redução Média de Impureza (Mean Decrease in Impurity) capturou quais medições foram mais úteis dentro das árvores, e a Importância por Permutação testou o quanto as previsões pioravam quando os valores de uma variável eram embaralhados. Além disso, o método SHAP explicou, instância por instância, como cada característica empurrava a previsão para cima ou para baixo, oferecendo insight tanto global quanto caso a caso. Entre as quatro técnicas, três entradas se destacaram claramente: o nível de oxigênio do dia anterior, a temperatura da água e a turbidez. Medidas como pH e nitrito, embora cientificamente relevantes, pouco contribuíram para melhorar as previsões nesta planta.

Previsões precisas com modelos mais enxutos

Ao focar nas entradas mais informativas e descartar as menos úteis, os pesquisadores reduziram a complexidade do modelo em até 70% mantendo a precisão praticamente inalterada. Tanto o Random Forest quanto o XGBoost reproduziram com alta precisão os níveis de oxigênio medidos na saída, explicando mais de 93% da variação e mantendo erros típicos abaixo de 0,3 miligramas por litro — bem dentro da faixa útil para operações do dia a dia. O XGBoost teve desempenho levemente superior no geral, mas ambos os modelos se mostraram robustos mesmo com o conjunto de entradas reduzido. Essa eficiência é relevante na prática: menos medições necessárias significam custos de monitoramento mais baixos e previsões mais rápidas e confiáveis que podem ser integradas aos sistemas de controle da planta.

Figure 2
Figure 2.

O que isso significa para água potável segura e eficiente

Para não especialistas, a conclusão é direta: ao permitir que diferentes métodos baseados em dados “votem” sobre quais medições são mais importantes, os operadores podem construir ferramentas de previsão compactas e transparentes que estimam de forma confiável o oxigênio dissolvido em tempo real. Saber com antecedência quando o oxigênio pode cair permite à estação ajustar a aeração, proteger filtros e evitar condições que liberem metais ou favoreçam microrganismos nocivos — tudo isso evitando o uso excessivo de energia e produtos químicos. Além desta planta e deste parâmetro, a mesma abordagem híbrida pode ser aplicada a outras questões ambientais, desde o acompanhamento de poluentes até a antecipação de florações de algas, oferecendo orientação mais clara e confiável onde quer que a qualidade da água e a saúde pública se encontrem.

Citação: Hoshyarzadeh, R., Hafshejani, L.D., Tishehzan, P. et al. A hybrid framework of feature selection and interpretability for dissolved oxygen prediction in drinking water treatment plants. Sci Rep 16, 6912 (2026). https://doi.org/10.1038/s41598-026-37276-6

Palavras-chave: oxigênio dissolvido, tratamento de água potável, aprendizado de máquina, seleção de variáveis, monitoramento da qualidade da água