Clear Sky Science · es

Enfoque de red neuronal que mejora la predicción de churn con codificación categórica y escalado estándar

2026-01-27 · Volver al índice

Por qué importa conservar clientes

Cuando cancelas un plan de teléfono, cierras una cuenta bancaria o dejas de usar un servicio por suscripción, te conviertes en lo que las empresas llaman un cliente «churned» (dado de baja). Reemplazarte por alguien nuevo resulta mucho más caro que mantenerte, por lo que las compañías quieren detectar señales tempranas de que un cliente está a punto de marcharse. Este estudio explora cómo una red neuronal bien diseñada —un tipo de inteligencia artificial— puede predecir con mayor precisión qué clientes bancarios probablemente se irán, ayudando a las empresas a gastar sus presupuestos de retención de forma más eficiente.

Convertir registros bancarios en señales de alerta

Los investigadores trabajaron con un conjunto de datos público de alrededor de 10.000 clientes bancarios, cada uno descrito por una docena de variables como edad, país, saldo de la cuenta, tiempo con el banco y si tiene tarjeta de crédito o es un usuario activo. Un desafío central es que esta información aparece en distintas formas: algunos valores son números (por ejemplo, salario), otros son categorías (por ejemplo, país), y la proporción de clientes que realmente se van es relativamente pequeña. El equipo se centró en dos pasos a menudo pasados por alto pero cruciales: cómo convertir la información categórica en números (codificación categórica) y cómo poner los campos numéricos en una escala comparable (escalado estándar) antes de alimentar todo a una red neuronal.

Limpieza y balanceo de los datos

Para hacer predicciones justas, los datos primero tuvieron que limpiarse. Se trataron valores faltantes y atípicos, y detalles categóricos como el país se transformaron usando una técnica llamada codificación one-hot, que representa cada categoría como un conjunto de indicadores sí/no en lugar de etiquetas numéricas arbitrarias. Al mismo tiempo, medidas numéricas como la puntuación crediticia y el saldo de la cuenta se estandarizaron para que ningún campo de gran magnitud dominara el proceso de aprendizaje. Dado que los clientes que se van son menos frecuentes que los que se quedan, el equipo también ajustó el procedimiento de entrenamiento para que los errores sobre los churners tuvieran mayor peso que los errores sobre los que se quedan, incentivando a la red a prestar atención al grupo minoritario.

Enseñar a la red a detectar clientes en riesgo

Sobre estos datos preparados, los autores construyeron una red neuronal multicapa que procesa alrededor de 30 características de entrada a través de varias capas ocultas. Cada capa aplica combinaciones ponderadas de entradas seguidas por una regla no lineal simple, lo que permite al modelo captar interacciones sutiles como cómo el saldo, el tiempo con el banco y el estado de actividad influyen conjuntamente en la probabilidad de irse. El entrenamiento se realizó dentro de un riguroso esquema de validación cruzada: el conjunto de datos se dividió repetidamente en segmentos de entrenamiento y prueba para que el rendimiento del modelo reflejara su capacidad de generalizar a nuevos clientes, no solo de memorizar los ya vistos. La salida del sistema es una probabilidad de churn para cada cliente, básicamente una puntuación de riesgo sobre la que un banco puede actuar.

Qué tan bien funciona el modelo en la práctica

La red neuronal alcanzó una alta precisión global y, crucialmente, una precisión muy alta: más de cuatro de cada cinco clientes que marcó como probables churners realmente estaban en riesgo. Eso significa que los bancos pueden concentrar ofertas costosas de retención en un grupo relativamente pequeño con confianza, en lugar de malgastar dinero en muchos clientes que habrían permanecido de todos modos. Aunque el modelo deja escapar a algunos churners (su recall es moderado), rara vez etiqueta erróneamente a clientes leales como en riesgo de fuga, lo cual es esencial cuando los incentivos y las campañas de contacto son costosos. Comparado con un conjunto de otros métodos populares —como Random Forests, Gradient Boosting y regresión logística—, la red neuronal propuesta igualó o superó a estos en medidas clave de ordenamiento y discriminación, y destacó especialmente en minimizar falsas alarmas.

Qué impulsa la marcha y cómo pueden responder los bancos

Más allá de las puntuaciones brutas, los autores investigaron qué factores usaba más el modelo. El saldo de la cuenta y si alguien es un «miembro activo» resultaron ser las señales principales, con la posesión de tarjeta de crédito, el país y la edad también desempeñando papeles importantes. En otras palabras, los signos de compromiso financiero y la actividad cotidiana son pistas fuertes sobre la lealtad. El equipo también examinó cómo se comportaba el modelo en distintos países y géneros, y cómo se alineaban sus puntuaciones de riesgo con las tasas reales de churn. Mostraron que para clientes de riesgo bajo a medio, las probabilidades están bien calibradas, y que el modelo puede usarse para diseñar campañas dirigidas que maximicen el beneficio: enfocarse en el 10–30% de clientes de mayor riesgo produce el mayor retorno financiero; más allá de eso, el esfuerzo adicional comienza a costar más de lo que ahorra.

Qué significa esto para los servicios cotidianos

En términos sencillos, el estudio muestra que prestar atención a cómo se preparan los datos —especialmente convertir categorías en números y poner todas las características en una escala común— puede hacer que las redes neuronales sean herramientas mucho más fiables para predecir quién es propenso a dejar un servicio. El modelo resultante no solo obtiene buenas puntuaciones en el papel; ofrece a los bancos y negocios similares una forma práctica de identificar a los clientes realmente en riesgo mientras se evitan campañas derrochadoras. Al destacar las señales de churn más influyentes y mostrar cómo las predicciones se vinculan directamente con el beneficio, este trabajo traslada la predicción de churn de un ejercicio puramente técnico a una herramienta de decisión que puede ayudar a las empresas cotidianas a mantener a sus clientes por más tiempo.

Cita: Bhattacharjee, B., Madhu, U., Guha, S.K. et al. Neural network approach enhancing churn prediction with categorical encoding and standard scaling. Sci Rep 16, 6274 (2026). https://doi.org/10.1038/s41598-026-37407-z

Palabras clave: deserción de clientes, redes neuronales, analítica bancaria, aprendizaje automático, retención de clientes