Clear Sky Science · pl

Podejście z użyciem sieci neuronowej poprawiające prognozowanie odpływu klientów dzięki kodowaniu kategorii i standaryzacji

· Powrót do spisu

Dlaczego warto zatrzymywać klientów

Kiedy rezygnujesz z abonamentu telefonicznego, zamykasz konto w banku lub przestajesz korzystać z usługi subskrypcyjnej, stajesz się tym, co firmy nazywają „odpływającym” klientem. Zastąpienie cię kimś nowym jest znacznie droższe niż utrzymanie, więc przedsiębiorstwa chcą jak najszybciej wykryć sygnały ostrzegawcze, że klient może odejść. W tym badaniu autorzy pokazują, jak starannie zaprojektowana sieć neuronowa — rodzaj sztucznej inteligencji — może dokładniej przewidywać, którzy klienci banku prawdopodobnie odejdą, pomagając firmom mądrzej gospodarować budżetami na utrzymanie.

Przekształcanie surowych danych bankowych w sygnały ostrzegawcze

Badacze pracowali na publicznym zbiorze danych zawierającym około 10 000 klientów banku, z których każdy był opisany kilkunastoma cechami, takimi jak wiek, kraj, saldo konta, staż w banku oraz czy posiadają kartę kredytową lub są aktywnymi użytkownikami. Kluczowym wyzwaniem było to, że informacje te występują w różnych formach: niektóre wartości są liczbami (np. wynagrodzenie), inne kategoriami (np. kraj), a odsetek klientów, którzy odchodzą, jest stosunkowo niewielki. Zespół skoncentrował się na dwóch często pomijanych, lecz istotnych etapach — jak przekształcić informacje kategoryczne w liczby (kodowanie kategorii) oraz jak wyrównać skale pól liczbowych (standaryzacja) — zanim dane trafią do sieci neuronowej.

Figure 1
Figure 1.

Oczyszczanie i wyrównywanie danych

Aby uzyskać sprawiedliwe prognozy, dane najpierw trzeba było oczyścić. Uzupełniono brakujące wartości i poradzono sobie z nietypowymi odstępstwami, a informacje kategoryczne, takie jak kraj, przekształcono techniką zwaną kodowaniem one-hot, które reprezentuje każdą kategorię jako zestaw prostych flag tak/nie zamiast dowolnych etykiet liczbowych. Równocześnie miary numeryczne, takie jak scoring kredytowy czy saldo konta, zostały wystandaryzowane, tak aby żadne pole o dużej wartości nie zdominowało procesu uczenia. Ponieważ klienci odchodzący są rzadsi niż pozostający, zespół również dostosował procedurę treningową tak, aby błędy dotyczące odchodzących liczyły się bardziej niż pomyłki wobec zostających, zachęcając sieć do zwracania uwagi na grupę mniejszościową.

Nauka sieci rozpoznawania klientów zagrożonych odejściem

Na podstawie przygotowanych danych autorzy zbudowali wielowarstwową sieć neuronową, która przetwarza około 30 cech wejściowych przez kilka warstw ukrytych. Każda warstwa stosuje ważone kombinacje wejść, po których następuje prosta nieliniowa funkcja, co pozwala modelowi wychwycić subtelne interakcje, takie jak wspólne wpływy salda, stażu i statusu aktywności na prawdopodobieństwo odejścia. Trening przeprowadzono w rygorystycznym schemacie walidacji krzyżowej: zbiór danych wielokrotnie dzielono na segmenty treningowe i testowe, aby ocena modelu odzwierciedlała jego zdolność do uogólniania na nowych klientach, a nie jedynie zapamiętywania obserwacji. Wyjściem systemu jest prawdopodobieństwo odpływu dla każdego klienta — de facto wskaźnik ryzyka, na który bank może reagować.

Figure 2
Figure 2.

Jak model sprawdza się w praktyce

Sieć neuronowa osiągnęła wysoką ogólną dokładność i, co kluczowe, bardzo wysoką precyzję: więcej niż cztery na pięć klientów oznaczonych przez nią jako prawdopodobni odchodzący faktycznie było zagrożonych odejściem. Oznacza to, że banki mogą skupić kosztowne oferty retencyjne na stosunkowo wąskiej grupie z pewnością, zamiast marnować środki na wielu klientach, którzy i tak by zostali. Choć model nie wykrywa wszystkich odchodzących (jego recall jest umiarkowany), rzadko błędnie oznacza lojalnych klientów jako ryzyko odejścia, co jest istotne, gdy zachęty i działania kontaktowe są kosztowne. W porównaniu z zestawem innych popularnych metod — takich jak lasy losowe, gradient boosting i regresja logistyczna — proponowana sieć neuronowa dorównywała lub przewyższała je w kluczowych miarach rankingowania i dyskryminacji, a szczególnie wyróżniała się w minimalizowaniu fałszywych alarmów.

Co napędza odejścia i jak banki mogą reagować

Powyżej samych wyników autorzy zbadali, na których czynnikach model opiera się najbardziej. Saldo konta i status „aktywny członek” okazały się wiodącymi sygnałami, a posiadanie karty kredytowej, kraj i wiek również odgrywały istotne role. Innymi słowy, wskaźniki zaangażowania finansowego i codziennej aktywności są silnymi wskazówkami lojalności. Zespół sprawdził też, jak model zachowuje się w różnych krajach i płciach oraz jak jego oceny ryzyka korelują z rzeczywistymi wskaźnikami odpływu. Wykazali, że dla klientów o niskim i średnim ryzyku prawdopodobieństwa są dobrze skalibrowane, a model może służyć do projektowania kampanii ukierunkowanych na maksymalizację zysku: koncentracja na 10–30% klientów o najwyższym ryzyku daje największy zwrot finansowy; poza tym progiem dodatkowe działania zaczynają kosztować więcej niż oszczędzają.

Co to oznacza dla codziennych usług

Mówiąc prosto, badanie pokazuje, że uważne przygotowanie danych — zwłaszcza przekształcanie kategorii w liczby i ujednolicanie skali cech — może sprawić, że sieci neuronowe staną się znacznie bardziej niezawodnym narzędziem do przewidywania, kto prawdopodobnie opuści usługę. Otrzymany model nie tylko dobrze wypada na papierze; daje bankom i podobnym firmom praktyczny sposób identyfikacji rzeczywiście zagrożonych klientów przy jednoczesnym unikaniu marnotrawnych kampanii. Podkreślając najsilniejsze sygnały odpływu i pokazując, jak prognozy przekładają się bezpośrednio na zysk, praca ta przesuwa prognozowanie odpływu z czysto technicznego ćwiczenia w stronę narzędzia decyzyjnego, które może pomóc firmom dłużej utrzymywać klientów.

Cytowanie: Bhattacharjee, B., Madhu, U., Guha, S.K. et al. Neural network approach enhancing churn prediction with categorical encoding and standard scaling. Sci Rep 16, 6274 (2026). https://doi.org/10.1038/s41598-026-37407-z

Słowa kluczowe: odpływ klientów, sieci neuronowe, analizy bankowe, uczenie maszynowe, utrzymanie klienta