Clear Sky Science · pt

Melhorando a detecção de fraude por assinaturas por meio de aprendizado em conjunto: o caso da Ethio Telecom

2026-02-09 · Voltar ao índice

Por que a fraude telefônica importa para todos

Toda vez que fazemos uma chamada, enviamos uma mensagem ou usamos dados móveis, confiamos que a conta reflita o que realmente usamos. Mas criminosos podem explorar redes telefônicas abrindo linhas com identidades falsas, acumulando cobranças enormes e não pagas, e até utilizando essas linhas para outros crimes. Este estudo foca na Ethio Telecom, operadora nacional da Etiópia, e mostra como métodos avançados orientados por dados conseguem identificar assinaturas suspeitas com muito mais precisão do que as ferramentas tradicionais, ajudando a manter os serviços telefônicos acessíveis e seguros para milhões de usuários.

O custo oculto de contas telefônicas falsas

A fraude por assinatura ocorre quando alguém contrata serviço telefônico com dados falsos ou roubados e não tem intenção de pagar. Em todo o mundo, essa é uma das formas de fraude em telecom mais danosas, custando à indústria dezenas de bilhões de dólares por ano. Só para a Ethio Telecom, estima‑se que a fraude drene cerca de um bilhão de dólares anualmente, com assinaturas fraudulentas responsáveis por aproximadamente 40% dessa perda. Além da receita perdida, essas linhas podem ser usadas em golpes, revenda de chamadas internacionais ou outras atividades ilícitas, representando riscos tanto para clientes quanto para a segurança nacional.

De regras feitas à mão ao aprendizado a partir dos dados

Como muitas operadoras, a Ethio Telecom tradicionalmente dependia de especialistas que criavam regras fixas para sinalizar comportamentos suspeitos — por exemplo, bloquear uma linha após muitas chamadas internacionais em pouco tempo. Esses sistemas baseados em regras são fáceis de entender, mas têm dificuldades quando fraudadores mudam de tática ou quando os padrões de uso são complexos. Os autores defendem que o aprendizado de máquina, que extrai padrões diretamente de dados históricos, pode responder mais rapidamente e com maior sensibilidade. Em vez de depender de um único modelo, eles exploram métodos “em conjunto” que combinam vários modelos, e métodos “adaptativos” que se atualizam conforme chegam novos dados.

O que os pesquisadores construíram a partir de registros reais de chamadas

A equipe trabalhou com um grande conjunto de registros de detalhe de chamadas — logs de quem ligou para quem, por quanto tempo e em que condições — de um período de dois meses conhecido por intensa atividade fraudulenta. Partindo de cerca de um milhão de registros brutos, limparam os dados, removeram erros e duplicatas, equilibraram classes fortemente desbalanceadas (muito mais usuários honestos do que fraudadores) e criaram novas características que capturam melhor comportamentos suspeitos. Particularmente importantes foram medidas como quantos números internacionais um assinante discou, a parcela de todas as chamadas que foram internacionais e a razão entre números únicos discados e o total de chamadas. Esses sinais destilados frequentemente distinguem uso normal de abuso organizado muito melhor do que contagens simples ou dados demográficos.

Como combinar modelos melhora a detecção

Os pesquisadores testaram três modelos padrão — árvores de decisão, regressão logística e redes neurais artificiais — juntamente com várias estratégias de ensemble como bagging (Random Forest), boosting (XGBoost), voting e stacking, além de modelos adaptativos projetados para fluxos contínuos de dados (Hoeffding Tree e Adaptive Random Forest). Após ajuste cuidadoso dos parâmetros de cada modelo, a abordagem de stacking, que aprende a combinar os pontos fortes de múltiplos modelos base, alcançou cerca de 99,3% de acurácia em dados não vistos. A Floresta Aleatória Adaptativa ficou quase tão boa, com cerca de 99,2% de acurácia, sendo também capaz de se ajustar conforme os padrões de fraude mudam ao longo do tempo. Ambas as abordagens reduziram fortemente o erro mais perigoso — deixar de detectar fraudes reais — em comparação com modelos individuais.

Acompanhar truques em mudança em tempo real

Como fraudadores mudam constantemente suas táticas, um modelo estático pode rapidamente ficar desatualizado. Para lidar com isso, os autores utilizaram uma técnica de seleção de características online que reavalia continuamente quais sinais importam mais, sem precisar reconstruir o sistema do zero. Eles também destacam a importância da privacidade: todos os identificadores pessoais nos dados foram anonimizados antes da análise, e recomendam controles rigorosos de acesso e trilhas de auditoria. Para uma implantação prática, o estudo esboça uma arquitetura em tempo real em que novos registros de chamadas fluem por ferramentas como Apache Kafka para modelos adaptativos que se atualizam automaticamente, enquanto monitoram mudanças bruscas no comportamento.

O que isso significa para usuários e provedores de telefonia

Em termos simples, o estudo mostra que permitir que múltiplos modelos inteligentes “votem” em conjunto e que aprendam continuamente pode identificar assinaturas falsas com precisão notável, mantendo os falsos positivos em níveis administráveis. Para a Ethio Telecom, isso pode se traduzir em economias substanciais, preços mais estáveis e maior proteção contra o uso criminoso da rede. Para os clientes, significa que usos incomuns mas legítimos têm menos probabilidade de serem interpretados como fraude, enquanto linhas realmente arriscadas são detectadas e encerradas mais rapidamente. Os autores concluem que aprendizado em conjunto e adaptativo, fundamentado em indicadores cuidadosamente escolhidos e específicos do contexto, fornece um roteiro poderoso e escalável para a detecção moderna de fraude em telecom.

Citação: Desta, E.A., Azale, K.W., Hailu, A.A. et al. Enhancing subscription fraud detection through ensemble learning the case of Ethio telecom. Sci Rep 16, 7867 (2026). https://doi.org/10.1038/s41598-026-38790-3

Palavras-chave: fraude em telecom, fraude por assinatura, aprendizado em conjunto, floresta aleatória adaptativa, registros de detalhe de chamadas