Clear Sky Science · ru
Повышение эффективности обнаружения мошенничества с абонентами с помощью ансамблевого обучения: случай Ethio Telecom
Почему телефонное мошенничество важно для всех
Каждый раз, когда мы звоняем, отправляем SMS или используем мобильный интернет, мы рассчитываем, что счёт отражает реальные расходы. Злоумышленники могут воспользоваться телефонными сетями, открывая линии на ложные личности, создавая огромные неоплаченные долги и даже используя эти линии для других преступлений. В этом исследовании рассматривается Ethio Telecom, национальный оператор Эфиопии, и показано, как современные методы, основанные на данных, позволяют гораздо точнее выявлять подозрительные подписки по сравнению с традиционными инструментами, помогая сохранить доступность и безопасность телефонных услуг для миллионов пользователей.

Скрытая цена поддельных телефонных аккаунтов
Мошенничество с подпиской происходит, когда кто-то оформляет телефонную услугу на поддельные или украденные данные без намерения платить. Во всём мире это одна из самых разрушительных форм телеком-мошенничества, приводящая к потерям в отрасли на десятки миллиардов долларов ежегодно. В Ethio Telecom, по оценкам, мошенничество «съедает» около миллиарда долларов в год, причём поддельные подписки отвечают примерно за 40% этих потерь. Помимо утраченных доходов, такие линии могут использоваться для мошенничества, перепродажи международных вызовов или других противоправных действий, создавая риски для клиентов и национальной безопасности.
От правил, составленных вручную, к обучению на данных
Как и многие операторы, Ethio Telecom традиционно полагался на экспертов, формирующих фиксированные правила для пометки подозрительного поведения — например, блокировать линию после большого числа международных звонков за короткий срок. Такие системы на правилах понятны, но с трудом справляются, когда мошенники меняют тактики или когда модели использования сложны. Авторы утверждают, что машинное обучение, которое извлекает закономерности напрямую из прошлых данных, может реагировать быстрее и чувствительнее. Вместо одного единственного алгоритма они исследуют ансамблевые методы, объединяющие несколько моделей, и адаптивные методы, которые постоянно обновляются по мере поступления новых данных.
Что исследователи построили на реальных записях вызовов
Команда работала с большим набором детализированных записей вызовов — журналов о том, кто кому звонил, как долго и при каких условиях, за двухмесячный период, известный высокой активностью мошенников. Начав примерно с миллиона сырых записей, они очистили данные, удалили ошибки и дубликаты, скорректировали дисбаланс классов (гораздо больше честных пользователей, чем мошенников) и сконструировали новые признаки, которые лучше отражают подозрительное поведение. Особенно важными оказались показатели: сколько международных номеров набирал абонент, доля международных звонков среди всех звонков и отношение уникальных набранных номеров к общему числу звонков. Эти сжатые сигналы зачастую гораздо лучше отличают нормальное использование от организованного злоупотребления, чем простые счётчики или демография.
Как объединение моделей улучшает обнаружение
Исследователи протестировали три стандартные модели — решающие деревья, логистическую регрессию и искусственные нейронные сети — вместе с несколькими ансамблевыми стратегиями, такими как бэггинг (Random Forest), бустинг (XGBoost), голосование и стекинг, а также адаптивными моделями для непрерывных потоков данных (Hoeffding Tree и Adaptive Random Forest). После тщательной настройки параметров каждой модели подход со стекингом, который учится сочетать сильные стороны нескольких базовых моделей, показал около 99,3% точности на невидимых данных. Адаптивный случайный лес был почти так же хорош — примерно 99,2% точности — при этом он способен подстраиваться по мере изменения схем мошенничества со временем. Оба подхода значительно сократили наиболее опасную ошибку — пропуск фактического мошенничества — по сравнению с отдельными моделями.

Опережая меняющиеся трюки в реальном времени
Поскольку мошенники постоянно меняют методы, статическая модель быстро устаревает. Чтобы справиться с этим, авторы использовали технику онлайн-отбора признаков, которая непрерывно переоценивает, какие сигналы важны, без необходимости перестраивать систему с нуля. Они также подчёркивают важность приватности: все персональные идентификаторы в данных были анонимизированы перед анализом, и они рекомендуют строгий контроль доступа и журналы аудита. Для практического развертывания исследование набрасывает архитектуру в реальном времени, в которой новые записи вызовов поступают через инструменты вроде Apache Kafka в адаптивные модели, которые обновляются на ходу, одновременно отслеживая внезапные сдвиги в поведении.
Что это означает для пользователей и провайдеров
Проще говоря, исследование показывает, что объединение множественных интеллектуальных моделей «в голосовании» и их непрерывное обучение позволяют с высокой точностью выявлять поддельные подписки при удержании уровня ложных срабатываний в приемлемых пределах. Для Ethio Telecom это может означать значительную экономию, более стабильные тарифы и более надёжную защиту от преступного использования сети. Для клиентов это значит, что необычная, но легитимная активность с меньшей вероятностью будет ошибочно принята за мошенничество, в то время как действительно рискованные линии будут обнаруживаться и блокироваться быстрее. Авторы делают вывод, что ансамблевое и адаптивное обучение, основанное на тщательно подобранных, специфичных для контекста индикаторах, предоставляет масштабируемую и мощную модель для современной системы обнаружения телеком-мошенничества.
Цитирование: Desta, E.A., Azale, K.W., Hailu, A.A. et al. Enhancing subscription fraud detection through ensemble learning the case of Ethio telecom. Sci Rep 16, 7867 (2026). https://doi.org/10.1038/s41598-026-38790-3
Ключевые слова: мошенничество в телекомах, мошенничество с подпиской, ансамблевое обучение, адаптивный случайный лес, детализированные записи вызовов