Clear Sky Science · tr
SHAP analizi ile açıklanabilir güçlendirme algoritmaları kullanarak kimyasal oksijen ihtiyacının doğru ve yorumlanabilir tahmini
Nehirdeki Oksijeni İzlemenin Önemi
Nehirler şehirlerin ve çiftliklerin can damarıdır; ancak fabrikalardan, kanalizasyonlardan veya tarlalardan gelen organik atıklarla dolduklarında su oksijen açısından tükenebilir ve insanlar ile ekosistemler için güvensiz hale gelebilir. Nehirlerin yaygın bir sağlık kontrolü “kimyasal oksijen ihtiyacı” (COD) olup, kirliliği parçalamak için ne kadar oksijene ihtiyaç duyulduğunu ölçer. Laboratuvarda COD ölçümü yavaş ve maliyetlidir; bu nedenle bu çalışma, gelişmiş ama açıklanabilir makine öğrenimi araçlarının rutin sensör verilerinden COD’u güvenilir şekilde tahmin edip edemeyeceğini ve kirliliğe neyin neden olduğunu açıkça gösterip gösteremeyeceğini araştırıyor. 
Kirlendikçe Akıllanan Modeller
Araştırmacılar, çok amaçlı Yeongju Barajı’nın hemen yukarısında bulunan Güney Kore’deki Hwangji ve Toilchun olmak üzere iki nehir izleme istasyonuna odaklandı. Bu istasyonlarda asitlik (pH), çözünmüş oksijen, askıda katı madde (suda bulunan ince partiküller), azot ve fosfor gibi besinler, toplam organik karbon (TOC), biyokimyasal oksijen ihtiyacı (BOD₅), su sıcaklığı, elektriksel iletkenlik ve nehir akışı gibi yaygın su kalitesi göstergelerine ilişkin onlarca yıllık kayıtlar mevcuttu. Bir nehri diğerine aktarması zor olabilen geleneksel fizik tabanlı bir model kurmak yerine, ekip çok sayıda basit karar ağacını güçlü bir tahminci haline getiren, güçlü bir makine öğrenimi ailesi olan altı “güçlendirme” (boosting) algoritmasını test etti.
En İyi Nehir "Hava Durumu Tahmincisi"ni Bulmak
AdaBoost, CatBoost, XGBoost, LightGBM, HistGBRT ve NGBoost olmak üzere altı güçlendirme yöntemini karşılaştırmak için ekip, modelleri tarihsel verilerin yaklaşık %70’i üzerinde eğitti ve kalan %30’da performansı kontrol etti. Tahminlerin gerçek COD ölçümlerine ne kadar yakın olduğunu ve modellerin görülmemiş koşullara ne kadar iyi genelleştiğini yakalayan çeşitli istatistiklerle doğruluk değerlendirildi. Toilchun istasyonunda, yalnızca tek bir değer değil COD için tam bir olasılık aralığı da tahmin eden NGBoost modeli açık ara öne çıktı; COD’daki varyasyonun neredeyse tamamını çok küçük hatalarla yakaladı. Daha karmaşık bir yer olan Hwangji’de ise CatBoost doğruluk ile kararlılık arasında en iyi dengeyi verdi. Özellikle XGBoost gibi bazı modeller eğitim verisinde neredeyse mükemmel görünürken test verisinde tökezledi; bu, bir modelin gerçek desenleri öğrenmek yerine gürültüyü ezberlediğinin klasik bir işareti olan "aşırı uyum"un belirtisiydi.
Yapay Zekânın Karartılmış Kutusunu Açmak
Çalışmanın merkezi amaçlarından biri yalnızca COD’u tahmin etmek değil, aynı zamanda modellerin neden o tahminleri yaptığını açıklamaktı. Bunun için yazarlar, her bir giriş değişkenine her bireysel tahmine pozitif veya negatif katkı atayan SHAP (Shapley Additive Explanations) tekniğini kullandı. Her iki nehirde ve çoğu algoritmada üç değişken tutarlı şekilde COD’un ana belirleyicileri olarak öne çıktı: toplam organik karbon (TOC), biyokimyasal oksijen ihtiyacı (BOD₅) ve askıda katı maddeler (SS). Basitçe söylemek gerekirse, suda ne kadar çok organik madde ve ince partikül varsa oksijen ihtiyacı o kadar yüksek oluyor. Modeller ayrıca siteye özgü farkları ortaya koydu: Toilchun’da deşarj (akış) ve toplam fosfor daha güçlü bir rol oynadı, bu da tarımsal yüzey akışı gibi yaygın kaynakların daha büyük etkisini düşündürürken; Hwangji’de iletkenlik ve askıda katı maddelerdeki desenler daha yerel veya endüstriyel kaynaklara işaret etti. 
Sonuçların Gerçek Nehirler İçin Anlamı
Bu bulgular, SHAP ile eşleştirildiğinde güçlendirme modellerinin muğlak "kara kutu" olmaktan çıkabileceğini gösteriyor. Hem nehir oksijen ihtiyacına ilişkin keskin tahminler sağlıyorlar hem de her saha için kirliliği neyin sürüklediğine dair fiziksel olarak mantıklı bir anlatı sunuyorlar. Bu, neyi izlemeleri ve nerede müdahale etmeleri gerektiğine öncelik vermek zorunda olan baraj ve havza yöneticileri için önem taşıyor: TOC ve BOD₅ en güçlü kaldıraçlarsa, organik atık girişlerini kontrol etmek su kalitesinde en büyük iyileşmeyi sağlayabilir. NGBoost’un olasılıksal tahminleri ayrıca belirsizlik hissi veriyor; bu, erken uyarı sistemleri ve risk temelli kararlar için kritik öneme sahip. Kısacası, dikkatle tasarlanmış, açıklanabilir yapay zekânın, rutin sensör okumalarını nehir sağlığının güvenilir ve şeffaf tahminlerine dönüştürerek içme suyu rezervuarlarını ve sucul yaşamı korumaya yardımcı olabileceğini çalışma göstermektedir.
Atıf: Merabet, K., Kim, S., Heddam, S. et al. Accurate and interpretable prediction of chemical oxygen demand using explainable boosting algorithms with SHAP analysis. Sci Rep 16, 6359 (2026). https://doi.org/10.1038/s41598-026-38757-4
Anahtar kelimeler: su kalitesi, kimyasal oksijen ihtiyacı, makine öğrenimi, nehir kirliliği, açıklanabilir yapay zeka