Clear Sky Science · tr

Ağ saldırı tespitinde etiket gürültüsünü azaltma: grafik tabanlı örnek seçimi ve arındırma

· Dizine geri dön

Daha Temiz Etiketlerin Siber Güvenlik İçin Önemi

Günlük olarak güvenlik sistemleri, milyonlarca normal bağlantı arasına gizlenmiş birkaç kötü niyeti yakalamaya çalışarak internet trafiğinin akışlarını izler. Bu sistemler giderek makine öğrenmesine dayanıyor; geçmişte “güvenli” veya “saldırı” olarak etiketlenmiş örneklerden öğreniyorlar. Ancak bu etiketlerin çoğu yanlışsa, güçlü modeller bile yanıltılabilir ve ağlar göründüğünden daha savunmasız hale gelebilir. Bu makale, eğitimden önce bu etiketleri temizlemeyi amaçlayan SilentSentinel adlı bir yöntem sunuyor, böylece saldırı tespit sistemleri gerçekten güvenilebilecek verilere dayanarak öğrenebilsin.

Yanlış Etiketlerin Gizli Sorunu

İyi saldırı tespit sistemleri oluşturmanın başlangıcı veridir ve sorunlar genellikle burada başlar. “Kötü niyetli” trafiği elde etmek için araştırmacılar sıklıkla kötü amaçlı yazılımları kontrollü ortamlarda çalıştırır ve ürettikleri her şeyi zararlı olarak etiketler. Oysa gerçekte bu trafiğin çoğu tamamen normaldir; böylece zararsız bağlantılar yanlışlıkla saldırı olarak işaretlenir. Etiketleme için kullanılan otomatik tespit araçları da, özellikle daha önce hiç karşılaşılmamış tehditlerle yüzleştiğinde, hata yapabilir. Bu hatalar ‘‘etiket gürültüsü’’ adını alır; bir veri kümesindeki birçok örnek yanlış etikete sahip olur. Gürültü yüksek olduğunda ve saldırılar normal trafiğe göre nadir olduğunda, standart eğitim yöntemleri zorlanır: modeller hataları ezberlemeye başlar, karar sınırları yanlış yöne kayar ve tespit doğruluğu keskin şekilde düşer.

Figure 1
Figure 1.

İki Aşamalı Bir Temizlik Stratejisi

SilentSentinel bu soruna veri merkezli bir yaklaşımla çözüm getiriyor: yalnızca modelin kendisini daha dayanıklı hale getirmeye çalışmak yerine, önce eğitim verilerini düzeltmeye odaklanıyor. Temel gözlem şu: aynı gerçek dünyadaki davranıştan gelen ağ akışları, gerçekten normal ya da gerçekten kötü niyetli olsalar bile özellik uzayında benzer görünme eğilimindedir. SilentSentinel’in ilk modülü, Normal Örnek Keşfi (NSD), modelin çok emin olduğu trafik örneklerini arar, bu örneklerin etiketlerinin doğru olduğu varsayılır ve benzerlik ilişkilerini kullanarak komşularının yeniden etiketlenmesini sağlar. Bu, her noktanın bir akış olduğu ve benzer davranan akışları bağlayan kenarların bulunduğu bir grafik kurularak yapılır. Emin çekirdeğin etiketleri bu grafik üzerinde yayılır ve yalnızca yeni etiketleri yüksek tutarlılığa sahip olan örnekler “temiz” olarak korunur. Bunlar özellikle bol bulunan normal trafik için eğitimde çapa görevi görür.

Nadir Saldırılara Yakın Plan

Gerçek veri kümelerinde normal trafik baskındır, ancak nadir ve gerçekten kötü niyetli akışlar en çok önem taşıyanlardır. Birçoğu ilk grafik tabanlı geçişten sonra hâlâ belirsiz kalır. Bunları ele almak için SilentSentinel ikinci bir modül ekler: Kötü Niyetli Örnek Tarama (MSS). Burada aynı yapıya sahip ancak farklı başlangıç noktalarından başlayan iki sinir ağı birlikte öğrenir. Her eğitim adımında her ağ, en güvenilir bulduğu örnek alt kümelerini seçer ve bunları diğer ağ ile paylaşır. Zaman içinde bu karşılıklı öğretme, her iki ağın üzerinde anlaştığı örneklere odaklanır ve yanlış etiketlenme olası olanları yavaşça süzer. Özel olarak seçilmiş bir kayıp fonksiyonu, baskın çoğunluk sınıfının nadir saldırı örneklerini boğmasını engellemeye yardımcı olur; böylece nihai kötü niyetli örnek seti hem daha saf hem de daha bilgilendirici hale gelir.

Figure 2
Figure 2.

Sistemin Test Edilmesi

Yazarlar SilentSentinel’i iki yaygın kullanılan saldırı veri kümesi üzerinde değerlendirdiler: birçok klasik saldırı türünü kapsayan CIC-IDS2017 ve şifrelenmiş DNS-over-HTTPS trafiğine odaklanan DoHBrw-2020. Gerçekçi koşulları simüle etmek için etiketlerin önemli bir kısmını, yüzde 40’a kadar, kasıtlı olarak çevirdiler ve SilentSentinel’i gürültülü verilerle başa çıkmayı amaçlayan önde gelen birkaç yöntemle karşılaştırdılar. Hem simetrik hem de asimetrik gürültü ayarlarında SilentSentinel tutarlı olarak daha yüksek F1 skorları—kesinlik ve çağırmanın dengesi—elde etti. Daha zorlu CIC-IDS2017 verisinde, yüksek gürültü altında en iyi rakip yaklaşıma kıyasla performansı yüzde 17’den fazla iyileştirdi. DoHBrw üzerinde etiket gürültüsü arttıkça performansı neredeyse mükemmele yakın tuttu; rakip yöntemler belirgin şekilde bozuldu. Daha ileri analizler, SilentSentinel’in nihai eğitim kümesinde mevcut tekniklere göre çok daha az yanlış etiketli örnek bıraktığını gösterdi.

Günlük Güvenlik İçin Anlamı

Bir uzman olmayan için çıkarım basittir: eğer bir güvenlik sistemini hatalarla dolu örneklerden öğretiyorsanız, o sistem gerçek dünyada hata yapacaktır. SilentSentinel, gürültülü bir eğitim veri kümesini dikkatle inceleyen, her örneği komşularıyla ve iki bağımsız “inceleyici” ağla karşılaştıran ve ana öğrenme başlamadan önce şüpheli girdileri düzelten veya elenmesini sağlayan dikkatli bir editör gibi davranır. Bunu yaparak, saldırı tespit modellerinin normal ve kötü niyetli trafiğin gerçekte nasıl göründüğünü daha net görmelerine olanak tanır; orijinal etiketler güvenilir olmasa bile. Sonuç, öğrenilen veriler kusursuz olmasa bile istikrarlı ve güvenilir bir ağ kenarı savunucusudur—veriler bozuk olduğunda bile iyi performans göstermeye devam eder.

Atıf: Zhao, R., Ding, J., Dong, Q. et al. Mitigating label noise in network intrusion detection via graph-based sample selection and purification. Sci Rep 16, 11674 (2026). https://doi.org/10.1038/s41598-026-45988-y

Anahtar kelimeler: ağ saldırı tespiti, etiket gürültüsü, grafik tabanlı öğrenme, gürültülü etiketler, zararlı trafik tespiti