Clear Sky Science · fr
Un cadre hybride de sélection de caractéristiques et d'interprétabilité pour la prédiction de l'oxygène dissous dans les usines de production d'eau potable
Pourquoi l'oxygène dans l'eau potable compte
L'oxygène dissous — les petites bulles de gaz oxygène mélangées à l'eau — influe discrètement sur la clarté, la sécurité et le goût de notre eau potable. Un manque d'oxygène dans l'eau brute peut libérer des métaux comme le fer et le manganèse, favoriser des micro-organismes nuisibles et rendre le traitement plus difficile et coûteux. Cette étude montre comment l'utilisation intelligente de données opérationnelles réelles et de l'apprentissage automatique moderne peut prévoir les niveaux d'oxygène dans une grande usine d'eau potable, aidant ainsi les exploitants à maintenir une haute qualité d'eau tout en économisant du temps, de l'énergie et des coûts de laboratoire.
Insuffler de la vie au traitement de l'eau
Dans de nombreux réservoirs et cours d'eau, les niveaux d'oxygène varient selon les saisons, la pollution et les mouvements d'eau. Lorsque l'eau devient stagnante ou surchargée en nutriments, l'oxygène peut chuter, créant des conditions qui libèrent des substances indésirables des sédiments et favorisent des micro-organismes problématiques. Dans les usines de traitement de l'eau potable, le maintien de niveaux d'oxygène adéquats est particulièrement important pour les filtres biologiques et pour éviter la libération de métaux et d'autres composés difficiles à éliminer. Pourtant, la plupart des études antérieures se sont concentrées sur les rivières ou les stations d'épuration, laissant un manque de connaissances pour les systèmes d'eau potable traitée, où des étapes de procédé telles que la coagulation, la filtration et la chloration modifient le comportement de l'oxygène de manière spécifique.
Une décennie de données de la rivière au robinet
Les chercheurs se sont appuyés sur dix ans d'enregistrements journaliers provenant d'une usine de traitement à grande échelle à Ahvaz, en Iran, qui traite l'eau de la rivière Karoun pour environ 450 000 personnes. Ils ont utilisé sept propriétés mesurées routinièrement de l'eau filtrée en entrée — oxygène dissous historique, nitrite, chlorure, conductivité électrique, turbidité, pH et température — pour prédire le niveau d'oxygène dans le bassin de sortie de l'usine. Après un contrôle minutieux des données, le traitement des valeurs aberrantes et la standardisation des mesures, ils ont entraîné deux modèles d'apprentissage automatique à base d'arbres populaires, Random Forest et XGBoost. Ces modèles apprennent des motifs en construisant de nombreux arbres de décision et en combinant leurs résultats, ce qui leur permet de saisir des relations complexes et non linéaires sans nécessiter d'équations conçues manuellement. 
Identifier les signaux qui comptent le plus
Un défi clé était de décider lesquelles des sept mesures d'entrée influencent réellement le comportement de l'oxygène et lesquelles ajoutent du bruit ou une complexité inutile. Plutôt que de se fier à une seule méthode de classement, l'équipe a construit un pipeline de sélection « hybride » qui examinait les données sous plusieurs angles. L'information mutuelle a mis en évidence les variables les plus fortement liées à l'oxygène, le recul moyen d'impureté (Mean Decrease in Impurity) a montré quelles mesures étaient les plus utiles à l'intérieur des arbres, et l'importance par permutation a testé dans quelle mesure les prévisions s'aggravaient lorsque les valeurs d'une variable étaient mélangées. En complément, la méthode SHAP a expliqué, cas par cas, comment chaque caractéristique influençait la prévision à la hausse ou à la baisse, offrant à la fois une vue globale et des éclairages spécifiques. À travers ces quatre techniques, trois entrées se sont nettement démarquées : le niveau d'oxygène du jour précédent, la température de l'eau et la turbidité. Des mesures comme le pH et le nitrite, bien qu'intéressantes scientifiquement, ont peu contribué à améliorer les prévisions pour cette usine.
Prévisions précises avec des modèles allégés
En se concentrant sur les entrées les plus informatives et en supprimant les moins utiles, les chercheurs ont réduit la complexité des modèles jusqu'à 70 % tout en conservant une précision quasiment inchangée. Random Forest et XGBoost ont tous deux reproduit avec grande précision les niveaux d'oxygène mesurés à la sortie, expliquant plus de 93 % de la variation et maintenant des erreurs typiques inférieures à 0,3 milligramme par litre — bien dans la plage utile pour les opérations quotidiennes. XGBoost a montré une performance légèrement meilleure dans l'ensemble, mais les deux modèles sont restés robustes même lorsque l'ensemble d'entrées était réduit. Cette efficacité a des implications pratiques : moins de mesures nécessaires signifient des coûts de surveillance plus faibles et des prévisions plus rapides et plus fiables, pouvant être intégrées aux systèmes de commande des installations. 
Ce que cela implique pour une eau potable sûre et efficace
Pour les non-spécialistes, la conclusion est simple : en laissant différentes méthodes pilotées par les données « voter » sur les mesures les plus importantes, les exploitants peuvent construire des outils de prédiction compacts et transparents qui prévoient de manière fiable l'oxygène dissous en temps réel. Savoir à l'avance quand l'oxygène pourrait diminuer permet à une usine d'ajuster finement l'aération, de protéger les filtres et d'éviter des conditions qui libèrent des métaux ou favorisent des micro-organismes nuisibles — tout en évitant la surconsommation d'énergie et de produits chimiques. Au-delà de cette usine et de ce paramètre uniques, la même approche hybride pourrait s'appliquer à d'autres problématiques environnementales, du suivi des polluants à l'anticipation des proliférations d'algues, offrant des recommandations plus claires et plus fiables là où qualité de l'eau et santé publique se rejoignent.
Citation: Hoshyarzadeh, R., Hafshejani, L.D., Tishehzan, P. et al. A hybrid framework of feature selection and interpretability for dissolved oxygen prediction in drinking water treatment plants. Sci Rep 16, 6912 (2026). https://doi.org/10.1038/s41598-026-37276-6
Mots-clés: oxygène dissous, traitement de l'eau potable, apprentissage automatique, sélection de caractéristiques, surveillance de la qualité de l'eau