Clear Sky Science · nl

Neuraalnetwerkbenadering die churnvoorspelling verbetert met categorische codering en standaardschaling

2026-01-27 · Terug naar het overzicht

Waarom klanten behouden belangrijk is

Als je een telefoonabonnement opzegt, een bankrekening sluit of stopt met een abonnementsdienst, word je wat bedrijven een “churned” klant noemen. Jou vervangen door iemand nieuw is veel duurder dan je te behouden, dus bedrijven willen graag vroege signalen zien dat een klant op het punt staat te vertrekken. Deze studie onderzoekt hoe een zorgvuldig ontworpen neuraal netwerk — een vorm van kunstmatige intelligentie — nauwkeuriger kan voorspellen welke bankklanten waarschijnlijk vertrekken, zodat organisaties hun budgetten voor behoud slimmer kunnen inzetten.

Ruwe bankgegevens omzetten in waarschuwingssignalen

De onderzoekers werkten met een openbare dataset van ongeveer 10.000 bankklanten, elk beschreven met een dozijn gegevens zoals leeftijd, land, rekeningstand, klantduur bij de bank en of ze een creditcard hebben of actief zijn. Een centrale uitdaging is dat deze informatie in verschillende vormen voorkomt: sommige waarden zijn getallen (zoals salaris), andere zijn categorieën (zoals land), en het aandeel klanten dat daadwerkelijk vertrekt is relatief klein. Het team richtte zich op twee vaak over het hoofd geziene maar cruciale stappen — hoe categorische informatie naar cijfers te converteren (categorische codering) en hoe numerieke velden op een vergelijkbare schaal te brengen (standaardschaling) — voordat alles in een neuraal netwerk wordt gevoed.

De gegevens opschonen en balanceren

Om eerlijke voorspellingen te doen, moesten de gegevens eerst worden opgeschoond. Ontbrekende waarden en vreemde uitschieters werden aangepakt, en land en andere categorische details werden getransformeerd met een techniek die one-hot encoding heet, waarbij elke categorie wordt weergegeven als een set simpele ja/nee-vlaggen in plaats van willekeurige numerieke labels. Tegelijkertijd werden numerieke metingen zoals kredietscore en rekeningstand gestandaardiseerd zodat geen enkel groot-waardig veld het leerproces zou domineren. Omdat klanten die vertrekken minder vaak voorkomen dan degenen die blijven, paste het team ook de trainingsprocedure aan zodat foutieve voorspellingen bij vertrekkers zwaarder telden dan fouten bij blijvers, waardoor het netwerk gedwongen werd meer aandacht te besteden aan de minderheidsgroep.

Het netwerk leren risicovolle klanten te herkennen

Op basis van deze voorbereide gegevens bouwden de auteurs een meerlagig neuraal netwerk dat ongeveer 30 invoerkenmerken via meerdere verborgen lagen verwerkt. Elke laag past gewogen combinaties van inputs toe, gevolgd door een eenvoudige niet-lineaire regel, waardoor het model subtiele interacties kan vastleggen, zoals hoe rekeningstand, klantduur en activiteitsstatus gezamenlijk de kans op vertrek beïnvloeden. Het trainen vond plaats binnen een rigoureus cross-validatiekader: de dataset werd herhaaldelijk in trainings- en testsegmenten gesplitst, zodat de prestatie van het model weerspiegelde hoe goed het generaliseert naar nieuwe klanten en niet alleen hoe goed het die het al heeft gezien onthoudt. De output van het systeem is een churnkans voor elke klant — in wezen een risicoscore waarop een bank kan handelen.

Hoe goed het model in de praktijk presteert

Het neuraal netwerk behaalde een hoge algehele nauwkeurigheid en, cruciaal, een zeer hoge precisie: meer dan vier van de vijf klanten die het als waarschijnlijke vertrekkers markeerde, bleken daadwerkelijk risicovol. Dat betekent dat banken dure behoudsaanbiedingen met vertrouwen op een relatief kleine groep kunnen richten, in plaats van geld te verspillen aan veel klanten die toch zouden blijven. Hoewel het model sommige vertrekkers mist (de recall is bescheiden), labelt het zelden loyale klanten onterecht als vluchtrisico, wat essentieel is wanneer incentives en outreach-campagnes kostbaar zijn. Vergeleken met een reeks andere populaire methoden — zoals Random Forests, Gradient Boosting en logistische regressie — evenaarde of overtrof het voorgestelde neuraal netwerk hen op belangrijke maatstaven voor rangschikking en discriminatie, en viel het vooral op door het minimaliseren van valse alarmen.

Wat vertrek aandrijft en hoe banken kunnen reageren

Buiten de ruwe scores onderzochten de auteurs welke factoren het model het meest gebruikte. Rekeningstand en of iemand een “actief lid” is bleken leidende signalen, waarbij creditcardbezit, land en leeftijd ook een belangrijke rol speelden. Met andere woorden: tekenen van financiële betrokkenheid en dagelijkse activiteit zijn sterke aanwijzingen voor loyaliteit. Het team onderzocht ook hoe goed het model zich gedroeg over verschillende landen en geslachten heen, en hoe goed de risicoscores overeenkwamen met daadwerkelijke churnpercentages. Ze toonden aan dat voor laag- tot middelhoog-risico klanten de waarschijnlijkheden goed gekalibreerd zijn, en dat het model kan worden gebruikt om gerichte campagnes te ontwerpen die de winst maximaliseren: richten op de top 10–30% hoogste risicoklanten levert het grootste financiële rendement op; daarbovenop beginnen extra acties meer te kosten dan ze opleveren.

Wat dit betekent voor alledaagse diensten

In eenvoudige bewoordingen laat de studie zien dat nauwkeurige aandacht voor hoe gegevens worden voorbereid — met name het omzetten van categorieën naar cijfers en het op een gemeenschappelijke schaal brengen van alle kenmerken — neurale netwerken veel betrouwbaarder kan maken voor het voorspellen wie een dienst waarschijnlijk zal verlaten. Het resulterende model scoort niet alleen goed op papier; het biedt banken en vergelijkbare bedrijven een praktische manier om echt risicovolle klanten te identificeren en tegelijk verspilde campagnes te vermijden. Door de meest invloedrijke signalen van churn te benadrukken en te laten zien hoe voorspellingen rechtstreeks aan winst kunnen worden gekoppeld, verplaatst dit werk churnvoorspelling van een louter technische oefening naar een beslissingsinstrument dat alledaagse bedrijven kan helpen hun klanten langer te behouden.

Bronvermelding: Bhattacharjee, B., Madhu, U., Guha, S.K. et al. Neural network approach enhancing churn prediction with categorical encoding and standard scaling. Sci Rep 16, 6274 (2026). https://doi.org/10.1038/s41598-026-37407-z

Trefwoorden: klantverloop, neurale netwerken, bankanalyse, machine learning, klantbehoud