Clear Sky Science · nl

Het verminderen van labelruis in netwerkindringingsdetectie via grafgebaseerde monsterselectie en zuivering

2026-04-07 · Terug naar het overzicht

Waarom schonere labels van belang zijn voor cybersecurity

Elke dag houden beveiligingssystemen stromen internetverkeer in de gaten om de paar kwaadaardige verbindingen te vinden die zich tussen miljoenen normale verbindingen verbergen. Deze systemen vertrouwen steeds vaker op machine learning, die leert van eerdere voorbeelden die als “veilig” of “aanval” zijn gelabeld. Maar als veel van die labels onjuist zijn, kunnen zelfs krachtige modellen worden misleid, waardoor netwerken kwetsbaarder lijken dan ze zijn. Dit artikel introduceert SilentSentinel, een methode die is ontworpen om die labels op te schonen voordat het trainingsproces begint, zodat indringingsdetectoren kunnen leren van data waarop ze daadwerkelijk kunnen vertrouwen.

Het verborgen probleem van foutieve labels

Het bouwen van goede indringingsdetectiesystemen begint met data, en daar gaat het vaak fout. Om “kwaadaardig” verkeer te verkrijgen, laten onderzoekers vaak malware draaien in gecontroleerde omgevingen en labelen alles wat het genereert als slecht. In werkelijkheid is veel van dat verkeer volkomen normaal, zodat onschuldige verbindingen ten onrechte als aanvallen worden bestempeld. Geautomatiseerde indringingsdetectietools die voor labeling worden gebruikt kunnen ook falen, vooral bij nieuwe, nog nooit eerder geziene dreigingen. Deze fouten creëren “labelruis”, een situatie waarin veel monsters in een dataset het verkeerde label dragen. Wanneer de ruis hoog is en aanvallen zeldzaam zijn vergeleken met normaal verkeer, hebben standaardtrainingsmethoden moeite: modellen beginnen fouten te memoriseren, hun beslissingsgrenzen verschuiven in de verkeerde richting en de detectienauwkeurigheid daalt sterk.

Een tweefasige opruimstrategie

SilentSentinel pakt dit probleem aan met een data-centrische benadering: in plaats van alleen te proberen het model zelf robuuster te maken, werkt het eerst aan het corrigeren van de trainingsdata. De kernobservatie is dat netwerkflows die voortkomen uit hetzelfde echte gedrag in een feature-ruimte vaak vergelijkbaar lijken, ongeacht of ze werkelijk normaal of werkelijk kwaadaardig zijn. De eerste module van SilentSentinel, genaamd Normal Sample Discovery (NSD), zoekt verkeersmonsters waar het model erg zeker van is, neemt aan dat hun labels correct zijn en gebruikt vervolgens hun gelijkenisrelaties om de labels van hun buren te heretiketteren. Dit gebeurt door een graaf te bouwen waarin elk punt een flow is en randen flows verbinden die zich gelijk gedragen. Labels van de overtuigde kern verspreiden zich over deze graaf, en alleen monsters waarvan de nieuwe labels zeer consistent zijn, worden behouden als “schoon”. Deze vormen ankers voor de training, vooral voor het overvloedige normale verkeer.

Inzoomen op zeldzame aanvallen

Normaal verkeer domineert echte datasets, maar de zeldzame, echt kwaadaardige flows zijn degene die het meest van belang zijn. Veel daarvan blijven onzeker na de eerste grafgebaseerde stap. Om hiermee om te gaan voegt SilentSentinel een tweede module toe, Malicious Sample Screening (MSS). Hier leren twee neurale netwerken met dezelfde structuur maar verschillende begintoestanden samen. Elk netwerk selecteert bij elke trainingsstap de deelverzamelingen monsters die het het meest betrouwbaar vindt en deelt deze met het andere netwerk. Na verloop van tijd richt deze wederzijdse overdracht zich op voorbeelden waar beide netwerken het over eens zijn en filtert geleidelijk degenen eruit die waarschijnlijk fout gelabeld zijn. Een speciaal gekozen verliesfunctie helpt voorkomen dat de overweldigende meerderheidsklasse de schaarse aanvalssamples verdringt, waardoor de uiteindelijke set kwaadaardige voorbeelden zowel zuiverder als informatiever wordt.

Het systeem aan de tand gevoeld

De auteurs evalueerden SilentSentinel op twee veelgebruikte indringingsdatasets: CIC-IDS2017, die vele typen klassieke aanvallen bestrijkt, en DoHBrw-2020, die zich richt op versleuteld DNS-over-HTTPS-verkeer. Ze simuleerden realistische omstandigheden door opzettelijk een aanzienlijk deel van de labels om te draaien, tot 40 procent, en vergeleken SilentSentinel met verschillende toonaangevende methoden die proberen om te gaan met ruisachtige data. Zowel bij symmetrische als asymmetrische ruisinstellingen behaalde SilentSentinel consequent hogere F1-scores, een balans tussen precisie en recall. Op de uitdagendere CIC-IDS2017-data verbeterde het de prestaties met meer dan 17 procent vergeleken met de beste concurrerende aanpak onder hoge ruis. Op DoHBrw hield het de prestaties bijna perfect, zelfs naarmate de labelruis toenam, terwijl concurrerende methoden merkbaar achteruit gingen. Verdere analyse toonde aan dat SilentSentinel veel minder fout gelabelde monsters in de uiteindelijke trainingsset liet dan bestaande technieken.

Wat dit betekent voor dagelijkse beveiliging

Voor een leek is de conclusie eenvoudig: als je een beveiligingssysteem leert van voorbeelden die vol fouten zitten, zal het in de echte wereld fouten maken. SilentSentinel fungeert als een zorgvuldige redacteur die een rumoerige trainingsdataset doorleest, elk voorbeeld controleert aan de hand van zijn buren en twee onafhankelijke “beoordelaars”-netwerken, en verdachte inzendingen repareert of weggooit voordat de eigenlijke training begint. Daarmee kan het indringingsdetectiemodel een helderder beeld krijgen van hoe normaal en kwaadaardig verkeer er werkelijk uitziet, zelfs wanneer de oorspronkelijke labels onbetrouwbaar zijn. Het eindresultaat is een stabielere en betrouwbaardere verdediger aan de netwerkgrens—een die goed blijft presteren, zelfs wanneer de data waarop hij leert verre van perfect zijn.

Bronvermelding: Zhao, R., Ding, J., Dong, Q. et al. Mitigating label noise in network intrusion detection via graph-based sample selection and purification. Sci Rep 16, 11674 (2026). https://doi.org/10.1038/s41598-026-45988-y

Trefwoorden: netwerkindringingsdetectie, labelruis, grafgebaseerd leren, ruisachtige labels, detectie van kwaadaardig verkeer