Clear Sky Science · ru
Подход на основе нейронных сетей для улучшения прогнозирования оттока с кодированием категорий и стандартизацией
Почему важно удерживать клиентов
Когда вы отменяете мобильный тариф, закрываете банковский счёт или перестаёте пользоваться подпиской, вы становитесь тем, что компании называют «оттоком» клиента. Заменить вас новым человеком обходится гораздо дороже, чем сохранить вас, поэтому фирмы стремятся обнаружить ранние признаки того, что клиент собирается уйти. В этом исследовании показано, как грамотно сконструированная нейронная сеть — разновидность искусственного интеллекта — может точнее предсказывать, какие банковские клиенты, вероятнее всего, уйдут, помогая компаниям более эффективно тратить бюджеты на удержание.
Преобразование сырых банковских записей в сигналы тревоги
Исследователи работали с публичным набором данных примерно на 10 000 банковских клиентов, каждому из которых соответствует около дюжины характеристик: возраст, страна, баланс счёта, срок обслуживания в банке, наличие кредитной карты и активность использования. Центральная трудность в том, что эти данные бывают разного типа: некоторые значения числовые (например, зарплата), другие — категориальные (например, страна), а доля ушедших клиентов относительно невелика. Команда сосредоточилась на двух часто упускаемых, но ключевых шагах — как превратить категориальные данные в числа (кодирование категорий) и как привести числовые поля к сопоставимому масштабу (стандартизация) — прежде чем подать всё это на вход нейронной сети.

Очистка и уравновешивание данных
Для справедливых прогнозов данные сначала пришлось очистить. Обработали пропуски и аномальные выбросы, а категориальные признаки, такие как страна, преобразовали с помощью приёма one-hot encoding, который представляет каждую категорию набором простых флагов «да/нет» вместо произвольных числовых меток. Одновременно числовые показатели, например кредитный рейтинг и баланс счёта, были стандартизированы, чтобы ни одно поле с большим диапазоном значений не доминировало в процессе обучения. Поскольку ушедших клиентов меньше, чем оставшихся, команда также скорректировала процедуру обучения так, чтобы ошибки на группе оттока учитывались сильнее, чем ошибки на оставшихся, подталкивая сеть обращать внимание на меньшинство.
Обучение сети выявлять риски ухода
На подготовленных данных авторы построили многослойную нейронную сеть, которая обрабатывает примерно 30 входных признаков через несколько скрытых слоёв. Каждый слой применяет взвешенные сочетания входов с последующей простой нелинейной функцией, что позволяет модели улавливать тонкие взаимодействия — например, как баланс, срок обслуживания и статус активности совместно влияют на вероятность ухода. Обучение проводили в строгой схеме перекрёстной проверки: набор данных многократно делили на обучающую и тестовую части, чтобы оценка модели отражала её способность обобщать на новых клиентах, а не только запоминать уже виденных. Выход системы — вероятность оттока для каждого клиента, по сути риск‑оценка, по которой банк может принимать решения.

Насколько хорошо модель работает на практике
Нейронная сеть показала высокую общую точность и, что важно, очень высокую точность положительных прогнозов: более четырёх из пяти клиентов, отмеченных как потенциальные ушедшие, действительно находились в зоне риска. Это позволяет банкам с уверенностью направлять дорогие предложения по удержанию на относительно небольшую группу, а не тратить ресурсы на многих клиентов, которые и так бы остались. Хотя модель пропускает часть ушедших (её полнота умеренна), она редко ошибочно помечает лояльных клиентов как рисковых, что критично, когда стимулы и каналы коммуникации дороги. В сравнении с рядом других популярных методов — такими как случайный лес, градиентный бустинг и логистическая регрессия — предложенная нейронная сеть соответствовала или превосходила их по ключевым метрикам ранжирования и дискриминации и особенно выделялась в минимизации ложных тревог.
Что побуждает уход и как банки могут реагировать
Помимо самих оценок риска, авторы проанализировали, на какие факторы модель опирается больше всего. Баланс счёта и статус «активного клиента» оказались ведущими сигналами, а также важную роль играют наличие кредитной карты, страна и возраст. Иначе говоря, признаки финансового вовлечения и повседневной активности являются сильными индикаторами лояльности. Команда также проверила, как модель ведёт себя в разных странах и для разных полов, и насколько её оценки риска согласуются с реальными уровнями оттока. Они показали, что для клиентов с низким и средним риском вероятности хорошо откалиброваны, и что модель можно использовать для проектирования таргетированных кампаний, максимизирующих прибыль: фокус на верхних 10–30% клиентов по риску даёт наибольшую финансовую отдачу; дальше дополнительные попытки контакта начинают обходиться дороже, чем дают экономии.
Что это значит для повседневных сервисов
Проще говоря, исследование демонстрирует, что внимательное отношение к подготовке данных — особенно к преобразованию категорий в числа и приведению всех признаков к общему масштабу — может сделать нейронные сети гораздо более надёжным инструментом для прогнозирования ухода. Полученная модель не просто хорошо выглядит в отчётах; она даёт банкам и аналогичным компаниям практический способ выявлять действительно подверженных риску клиентов и избегать расточительных кампаний. Подчёркивая наиболее влиятельные сигналы оттока и показывая, как прогнозы напрямую связаны с прибылью, эта работа переводит прогнозирование оттока из чисто технического упражнения в инструмент принятия решений, который помогает компаниям дольше сохранять клиентов.
Цитирование: Bhattacharjee, B., Madhu, U., Guha, S.K. et al. Neural network approach enhancing churn prediction with categorical encoding and standard scaling. Sci Rep 16, 6274 (2026). https://doi.org/10.1038/s41598-026-37407-z
Ключевые слова: отток клиентов, нейронные сети, аналитика в банковском секторе, машинное обучение, удержание клиентов