Clear Sky Science · zh

使用类别编码与标准缩放改进流失预测的神经网络方法

2026-01-27 · 返回目录

为何留住客户很重要

当你取消电话套餐、关闭银行账户或停止使用订阅服务时，你就成了企业所说的“流失”客户。用新客户来替代流失的客户远比留住现有客户要昂贵，因此公司急于发现客户可能流失的早期信号。本研究探讨了一种精心设计的神经网络（一种人工智能），如何更准确地预测哪些银行客户可能离开，从而帮助企业更明智地分配挽留预算。

将原始银行记录转化为预警信号

研究人员使用了一个约1万名银行客户的公开数据集，每位客户由十几项信息描述，例如年龄、国家、账户余额、在行时间，以及是否持有信用卡或是否为活跃用户。一个核心挑战是这些信息形式各异：有些是数值（如薪资），有些是类别（如国家），而实际流失的客户比例相对较小。团队聚焦于两个常被忽视但至关重要的步骤——如何将类别信息转换为数值（类别编码）以及如何把数值字段放到可比的尺度上（标准缩放）——再将处理好的数据输入神经网络。

清理与平衡数据

为了做出公平的预测，数据首先需要清洗。研究者处理了缺失值和异常值，并使用称为独热编码（one-hot encoding）的技术将国家等类别细节转换为一组简单的是/否标志，而不是任意的数字标签。与此同时，信用评分和账户余额等数值指标被标准化，以免某个数值较大的字段主导学习过程。由于流失客户比留存客户少，团队还调整了训练程序，使得对流失者的错误预测权重更高，从而促使网络关注这一少数群体。

教网络识别高风险客户

在这些准备好的数据之上，作者构建了一个多层神经网络，将大约30个输入特征通过若干隐藏层处理。每层对输入做加权组合并应用简单的非线性规则，使模型能够捕捉诸如余额、在行时间和活跃状态如何共同影响离行概率等微妙交互关系。训练在严格的交叉验证框架内进行：数据集被反复分割为训练集和测试集，以便模型的性能反映其泛化到新客户的能力，而不仅仅是记忆已见样本。系统的输出是每位客户的流失概率——本质上是银行可以据此采取行动的风险评分。

模型在实践中的表现如何

该神经网络在总体准确率上表现良好，更重要的是其精确率很高：被标记为可能流失的客户中有超过五分之四确实处于风险之中。这意味着银行可以有把握地把昂贵的挽留优惠集中在相对较小的一群人身上，而不是把钱浪费在本来会留下的大多数客户身上。尽管模型错过了一些流失者（召回率一般），但它很少把忠诚客户误判为高风险——这在激励和外呼活动成本高昂时尤其重要。与一系列其他流行方法（如随机森林、梯度提升和逻辑回归）相比，所提出的神经网络在关键的排序与区分度指标上不落下风，且在减少误报方面尤为突出。

驱动流失的因素与银行的应对策略

除了给出原始分数，作者还探查了模型最依赖的因素。账户余额和是否为“活跃会员”被证明是主要信号，持有信用卡、国家和年龄也起到重要作用。换言之，财务参与度和日常活跃度是判断忠诚度的强烈线索。团队还检验了模型在不同国家和性别群体中的表现，以及其风险评分与实际流失率的对齐情况。结果显示，对于低到中等风险的客户，概率估计较为校准，并且模型可用于设计最大化利润的定向活动：将注意力集中在风险最高的前10–30%客户上可带来最大财务回报；超出该范围，额外的外联成本开始超过节省。

对日常服务的意义

简而言之，该研究表明，关注数据如何被准备——尤其是将类别转为数值并将所有特征置于统一尺度——可以让神经网络成为预测谁可能离开的更可靠工具。由此得到的模型不仅在纸面上得分良好；它为银行及类似企业提供了一种实用方式，以识别真正高风险的客户并避免浪费性活动。通过突出最具影响力的流失信号并展示预测如何直接关联利润，这项工作将流失预测从纯技术练习推进为可帮助企业延长客户留存的决策工具。

引用: Bhattacharjee, B., Madhu, U., Guha, S.K. et al. Neural network approach enhancing churn prediction with categorical encoding and standard scaling. Sci Rep 16, 6274 (2026). https://doi.org/10.1038/s41598-026-37407-z

关键词: 客户流失, 神经网络, 银行分析, 机器学习, 客户挽留