Clear Sky Science · ja
説明可能なブースティングとSHAP解析を用いた化学的酸素要求量の高精度かつ解釈可能な予測
河川の酸素を監視する意味
河川は都市や農地の命を支える存在ですが、工場や下水、耕地から有機物が流入すると、水中の酸素が消費されて人や生態系にとって危険な状態になります。河川の健全性を示す一般的な指標が「化学的酸素要求量(COD)」であり、汚濁物質を分解するのに必要な酸素量を表します。実験室でCODを測定するのは時間とコストがかかるため、本研究では、日常的に取得されるセンサー値から高度でありながら解釈可能な機械学習手法でCODを確実に予測できるか、また汚染の要因を明確に示せるかを検討しました。
汚れた世界に適したスマートなモデル
研究者らは、韓国の多目的ダムである英州ダムの上流に位置する黄池(Hwangji)とトイルチュン(Toilchun)の二つの河川観測所に着目しました。これらの観測所には、酸度(pH)、溶存酸素、浮遊物質(懸濁固形分)、窒素やリンなどの栄養塩、全有機炭素(TOC)、生化学的酸素要求量(BOD₅)、水温、電気伝導度、河川流量といった長年の水質データが蓄積されています。物理に基づく従来型モデルは河川ごとに移植が難しい場合があるため、本研究では多数の単純な決定木を組み合わせて強力な予測器を作る「ブースティング」アルゴリズム群を試しました。
最良の河川「予報器」の発見
6種類のブースティング手法(AdaBoost、CatBoost、XGBoost、LightGBM、HistGBRT、NGBoost)を比較するため、データの約70%を訓練に用い、残りの30%で性能を検証しました。評価は予測値と実測CODの近さや、未知の条件への一般化能力を示す統計量で行いました。トイルチュンでは、CODの単一値だけでなく確率分布を予測するNGBoostが際立って優れており、CODの変動をほぼ捉え、誤差も非常に小さかったです。より複雑な黄池では、CatBoostが精度と安定性のバランスで最良でした。XGBoostのように訓練データ上ではほぼ完璧に見えたモデルがテストデータで性能を落とす例もあり、これはモデルがノイズを暗記してしまう「過学習」の典型的な兆候です。
AIのブラックボックスを開く
本研究の中心的な目的はCODを予測するだけでなく、モデルがなぜその予測を出したかを説明することにもありました。そのために著者らはSHAP(Shapley Additive Explanations)を用いました。SHAPは各入力変数が個々の予測に対して与える正負の寄与を割り当てる手法です。両河川および多くのアルゴリズムに共通して、CODの主要因として一貫して浮上したのは全有機炭素(TOC)、生化学的酸素要求量(BOD₅)、浮遊物質(SS)の三つでした。簡単に言えば、水中の有機物や微細粒子が多いほど酸素需要は高くなります。さらにモデルはサイト特有の違いも示しました。トイルチュンでは流量(排水)と総リンがより強く影響しており、農地からの拡散的流入の影響が大きいことを示唆しています。一方、黄池では伝導度や浮遊物質のパターンが局所的または産業由来の要因を示唆していました。
実際の河川管理への意味
これらの知見は、ブースティングモデルがSHAPと組み合わせることで単なる不透明な「ブラックボックス」以上の役割を果たせることを示しています。河川の酸素需要を鋭く予測するだけでなく、各観測点で何が汚染を引き起こしているかについて物理的に妥当な説明を提供します。これはダムや流域を管理する者が、何を重点的に監視し、どこに介入すべきかを判断する上で重要です。TOCやBOD₅が主要な操作変数であれば、有機性廃棄物の流入を抑えることが水質改善に最も効果的であることが示唆されます。さらに、NGBoostによる確率的予測は不確実性の把握を可能にし、早期警報システムやリスクに基づく意思決定に有用です。要するに、本研究は慎重に設計された説明可能なAIが、日常的なセンサー観測を信頼性のある透明な河川健全性予測に変換し、飲料水貯水池や水生生物の保護に役立つ可能性を実証しました。
引用: Merabet, K., Kim, S., Heddam, S. et al. Accurate and interpretable prediction of chemical oxygen demand using explainable boosting algorithms with SHAP analysis. Sci Rep 16, 6359 (2026). https://doi.org/10.1038/s41598-026-38757-4
キーワード: 水質, 化学的酸素要求量, 機械学習, 河川汚染, 説明可能なAI