Clear Sky Science · fr

Approche par réseau de neurones améliorant la prédiction du churn avec encodage catégoriel et mise à l’échelle standard

2026-01-27 · Retour à l’index

Pourquoi conserver les clients est important

Quand vous annulez un forfait téléphonique, fermez un compte bancaire ou cessez d’utiliser un service par abonnement, vous devenez ce que les entreprises appellent un client « churné ». Remplacer un client par un nouveau coûte bien plus cher que le conserver, aussi les entreprises cherchent-elles à détecter précocement les signes indiquant qu’un client est sur le point de partir. Cette étude examine comment un réseau de neurones soigneusement conçu — une forme d’intelligence artificielle — peut prédire plus précisément quels clients bancaires risquent de partir, aidant ainsi les entreprises à mieux cibler leurs budgets de rétention.

Transformer les dossiers bancaires bruts en signaux d’alerte

Les chercheurs ont travaillé sur un jeu de données public d’environ 10 000 clients bancaires, chacun décrit par une douzaine d’informations telles que l’âge, le pays, le solde du compte, l’ancienneté auprès de la banque, et la possession d’une carte de crédit ou le statut d’utilisateur actif. Un défi central est que ces informations existent sous des formes différentes : certaines valeurs sont numériques (comme le salaire), d’autres sont catégorielles (comme le pays), et la proportion de clients qui partent est relativement faible. L’équipe s’est concentrée sur deux étapes souvent négligées mais cruciales — la façon de convertir l’information catégorielle en nombres (encodage catégoriel) et la façon de mettre les champs numériques sur une échelle comparable (mise à l’échelle standard) — avant d’alimenter l’ensemble dans un réseau de neurones.

Nettoyer et équilibrer les données

Pour produire des prédictions équitables, les données ont d’abord été nettoyées. Les valeurs manquantes et les outliers ont été traités, et le pays ainsi que d’autres variables catégorielles ont été transformés à l’aide d’une technique appelée encodage one-hot, qui représente chaque catégorie par un ensemble de drapeaux oui/non plutôt que par des étiquettes numériques arbitraires. Parallèlement, les mesures numériques telles que le score de crédit et le solde de compte ont été standardisées pour qu’aucun champ à grande valeur ne domine le processus d’apprentissage. Comme les clients qui partent sont moins nombreux que ceux qui restent, l’équipe a aussi ajusté la procédure d’entraînement pour que les erreurs sur les churners comptent davantage que celles sur les clients fidèles, incitant ainsi le réseau à prêter attention au groupe minoritaire.

Apprendre au réseau à repérer les clients à risque

Sur ces données préparées, les auteurs ont construit un réseau de neurones multicouche qui traite environ 30 caractéristiques d’entrée à travers plusieurs couches cachées. Chaque couche applique des combinaisons pondérées des entrées suivies d’une règle non linéaire simple, permettant au modèle de capturer des interactions subtiles, par exemple comment le solde, l’ancienneté et le statut d’activité influent conjointement sur la probabilité de départ. L’entraînement a été réalisé dans un cadre rigoureux de validation croisée : le jeu de données a été répétéement divisé en segments d’entraînement et de test afin que la performance du modèle reflète sa capacité de généralisation à de nouveaux clients, et non pas seulement sa capacité à mémoriser ceux déjà vus. La sortie du système est une probabilité de churn pour chaque client — essentiellement un score de risque sur lequel une banque peut agir.

Performance du modèle en pratique

Le réseau de neurones a atteint une forte précision globale et, de manière cruciale, une très grande précision positive : plus de quatre clients sur cinq qu’il a signalés comme des churners potentiels l’étaient effectivement. Cela signifie que les banques peuvent cibler leurs offres coûteuses de rétention sur un groupe relativement restreint en toute confiance, au lieu de gaspiller de l’argent sur de nombreux clients qui seraient restés de toute façon. Bien que le modèle manque certains churners (son rappel est modéré), il étiquette rarement des clients fidèles comme des risques de départ, ce qui est essentiel lorsque les incitations et les campagnes de contact sont coûteuses. Comparé à un ensemble d’autres méthodes populaires — telles que les forêts aléatoires (Random Forests), le Gradient Boosting et la régression logistique — le réseau proposé a égalé ou surpassé ces approches sur des mesures clés de classement et de discrimination, et s’est particulièrement distingué en minimisant les fausses alertes.

Ce qui pousse au départ et comment les banques peuvent réagir

Au-delà des scores bruts, les auteurs ont examiné les facteurs sur lesquels le modèle s’appuyait le plus. Le solde du compte et le fait d’être « membre actif » se sont révélés être des signaux majeurs, la possession d’une carte de crédit, le pays et l’âge jouant aussi des rôles importants. Autrement dit, les signes d’engagement financier et d’activité quotidienne sont de forts indicateurs de fidélité. L’équipe a également étudié la performance du modèle selon les pays et les sexes, et la correspondance entre les scores de risque et les taux réels de churn. Ils ont montré que, pour les clients à risque faible à moyen, les probabilités sont bien calibrées, et que le modèle peut servir à concevoir des campagnes ciblées maximisant le profit : se concentrer sur les 10–30 % des clients les plus à risque apporte le meilleur rendement financier ; au-delà, les actions supplémentaires coûtent plus qu’elles ne rapportent.

Ce que cela signifie pour les services du quotidien

En termes simples, l’étude montre que prêter une attention particulière à la préparation des données — en particulier convertir les catégories en nombres et mettre toutes les variables sur une échelle commune — peut rendre les réseaux de neurones beaucoup plus fiables pour prédire qui est susceptible de quitter un service. Le modèle obtenu ne se contente pas de bien figurer sur le papier ; il offre aux banques et aux entreprises similaires un moyen pratique d’identifier les clients réellement à risque tout en évitant des campagnes coûteuses et inutiles. En mettant en lumière les signaux de churn les plus influents et en montrant comment les prédictions se traduisent directement en profits, ce travail fait passer la prédiction du churn d’un exercice purement technique à un outil de décision permettant aux entreprises de retenir leurs clients plus longtemps.

Citation: Bhattacharjee, B., Madhu, U., Guha, S.K. et al. Neural network approach enhancing churn prediction with categorical encoding and standard scaling. Sci Rep 16, 6274 (2026). https://doi.org/10.1038/s41598-026-37407-z

Mots-clés: attrition client, réseaux de neurones, analytique bancaire, apprentissage automatique, rétention client