Clear Sky Science · pt

A avaliação de verossimilhança Usmile fornece uma avaliação robusta sem limiar de modelos de classificação binária para conjuntos de dados balanceados e não balanceados

2026-02-20 · Voltar ao índice

Por que melhores verificações de modelos importam para decisões do dia a dia

De exames médicos a pontuação de crédito, os computadores frequentemente respondem perguntas do tipo sim-ou-não: este paciente tem doença cardíaca? Esta transação será fraudulenta? Ainda assim, as ferramentas que usamos para julgar a qualidade desses modelos podem enganar, especialmente quando o que procuramos é raro. Este artigo introduz uma nova forma de avaliar esses modelos que examina separadamente quão bem eles detectam os casos raros importantes e quão bem evitam falsos positivos, oferecendo uma visão mais clara para decisões de alto risco.

Limites dos boletins de notas de um único número

A maioria dos “boletins” atuais de modelos, como a popular curva ROC e seu valor resumido, a área sob a curva, reduz o desempenho a um único número. Esse número mistura sucesso em pessoas que realmente têm a condição (eventos) e naquelas que não têm (não‑eventos). Em muitos problemas reais, como diagnósticos médicos ou detecção de fraude, o grupo raro é precisamente aquele de maior interesse, e seus erros são muito mais custosos do que erros no grupo comum. Sob forte desequilíbrio — quando há muito mais não‑eventos do que eventos — medidas tradicionais podem sugerir que um modelo parece muito bom embora ele tenha desempenho ruim para os casos raros e críticos.

Uma nova visão em forma de "sorriso" da força do modelo

Os autores estendem sua ideia anterior de visualização em U para um método completo chamado Avaliação de Verossimilhança U‑smile. No cerne está uma nova pontuação, a razão de verossimilhança relativa, que compara o quanto os dados são mais prováveis sob um determinado modelo do que sob um modelo de referência simples sem informação útil. Essa pontuação é naturalmente livre de limiar: usa as probabilidades previstas brutas em vez de forçar o usuário a escolher um corte. Crucialmente, ela é dividida em partes separadas para os grupos de evento e não‑evento. Em um gráfico em forma de U, melhorias para cada grupo são mostradas por pontos coloridos: um “sorriso” profundo e simétrico significa que o modelo ajuda ambos os grupos; uma forma desigual revela quando apenas um grupo se beneficia. O tamanho do ponto reflete quantos indivíduos são afetados, e o estilo da linha indica se a melhoria é estatisticamente confiável.

Como o método se comporta em dados balanceados e enviesados

Para testar sua abordagem, os pesquisadores criaram vários conjuntos de dados sintéticos que imitam diferentes desafios do mundo real: sinais fracos e fortes, bem como situações fortemente desbalanceadas onde apenas um em cada dez casos é um evento. Também analisaram um conhecido conjunto de dados de doença cardíaca. Para cada cenário construíram modelos passo a passo, adicionando um preditor de cada vez usando regras tradicionais baseadas na ROC ou os novos critérios U‑smile. Em situações balanceadas, todos os métodos escolheram preditores semelhantes e alcançaram desempenho quase idêntico, sugerindo que U‑smile é pelo menos tão bom quanto as práticas existentes quando os dados se comportam bem. As diferenças reais surgiram sob desequilíbrio: ali, a seleção guiada por U‑smile melhorou a detecção da classe minoritária em até 16% na área de precisão‑recall e 21% no F1 em comparação com a seleção guiada por ROC, mantendo ao mesmo tempo desempenho forte para a classe majoritária.

Ver o que cada preditor realmente contribui

Como os gráficos U‑smile podem ser desenhados após cada etapa de modelagem, eles funcionam também como um registro visual de como um modelo cresce. Nos exemplos desbalanceados, preditores iniciais melhoraram principalmente o reconhecimento de casos de evento, produzindo um sorriso enviesado. Preditores posteriores restauraram o equilíbrio, aprofundando e simetrizando a curva. Versões separadas do método podem deliberadamente favorecer eventos ou não‑eventos, permitindo que usuários ajustem modelos a objetivos específicos — por exemplo, maximizar a detecção de uma doença rara enquanto outra versão enfatiza evitar alarmes desnecessários. Os autores também aplicaram o método a modelos de floresta aleatória, que operam de forma muito diferente da regressão logística clássica, e descobriram que os mesmos padrões em U ainda fornecem insights claros, mostrando que a abordagem funciona em vários tipos de algoritmo.

O que isso significa para decisões de risco no mundo real

Em termos simples, o estudo oferece uma forma mais clara e honesta de perguntar: “A quem este modelo realmente ajuda?” Em vez de uma única pontuação lisonjeira, a Avaliação de Verossimilhança U‑smile mostra, de relance, se um modelo realmente melhora a detecção de eventos raros mas importantes, quanto ele beneficia os casos comuns e quais preditores adicionados promovem essas mudanças. Para domínios como medicina, esportes, finanças e segurança industrial — onde deixar passar um evento raro pode ser muito mais sério do que gerar um falso alarme ocasional — essa visão por classe pode orientar um melhor desenho de modelos e uma comunicação mais transparente sobre risco.

Citação: Więckowska, B., Guzik, P. Usmile likelihood evaluation provides robust threshold free assessment of binary classification models for balanced and imbalanced datasets. Sci Rep 16, 10000 (2026). https://doi.org/10.1038/s41598-026-40545-z

Palavras-chave: classificação binária, dados desbalanceados, avaliação de modelos, razão de verossimilhança, aprendizado de máquina explicável