Clear Sky Science · pt

User eXperience Perception Insights Dataset (UXPID): Feedback de Usuários Sintético a partir de Fóruns Industriais Públicos

2026-05-20 · Voltar ao índice

Por que conversas técnicas online importam

Todos os dias, pessoas ao redor do mundo postam perguntas e reclamações em fóruns de suporte de empresas quando seu software ou equipamentos industriais apresentam falhas. Enterrado nesses tópicos há uma mina de ouro de informações sobre com o que usuários reais têm dificuldades, o que eles apreciam e do que ainda precisam. Porém, essa informação é bagunçada, dispersa e muitas vezes protegida por regras de privacidade. Este artigo apresenta uma nova forma de acessar esse conhecimento oculto sem expor dados pessoais.

Figure 1. Como discussões reais em fóruns de usuários se tornam um conjunto de dados seguro e estruturado para estudar a experiência de produto em larga escala

Transformando conversas de fórum em combustível para pesquisa

Os autores apresentam o User eXperience Perception Insights Dataset, ou UXPID, uma grande coleção de discussões de usuários sintéticas baseadas em um fórum público de automação industrial. Em vez de compartilhar as postagens originais, que podem conter nomes, códigos de produto e detalhes de empresas, eles criaram versões cuidadosamente reescritas que preservam o sentido, mas removem pistas sensíveis. Cada registro descreve um ramo inteiro de discussão, começando pela pergunta do usuário e incluindo todas as respostas, para que pesquisadores possam ver não apenas comentários isolados, mas conversas completas de resolução de problemas.

Adicionando estrutura a conversas desordenadas

O que diferencia o UXPID é a rica estrutura adicionada sobre o texto bruto. A equipe usou um modelo de linguagem poderoso para ler cada discussão e produzir resumos do problema principal, do que o usuário esperava que acontecesse e de quão grave parecia o problema. Também etiquetaram cada ramo com tópicos, marcaram se o tom era positivo, negativo ou neutro, e extraíram frases curtas sobre dores, ganhos e recursos solicitados. Isso transforma bate-papo livre em informação organizada que computadores podem aprender.

Figure 2. Como comentários brutos de fóruns são anonimizados e transformados passo a passo em dados rotulados para modelos de IA

Mantendo as pessoas anônimas sem perder a história

Proteger os participantes do fórum foi um objetivo central. O modelo de linguagem recebeu instruções para substituir nomes de empresas, rótulos de produto, números de versão, nomes pessoais, e-mails e links da web por marcadores simples enquanto reescrevia levemente cada comentário. Após essa etapa automatizada, a equipe executou correspondência de padrões para capturar quaisquer indícios remanescentes, como formatos de e-mail ou de IP, e então inspecionou amostras manualmente. Eles também compararam os textos originais e processados, mostrando que o comprimento e a variedade das frases permaneceram semelhantes, embora gritos em maiúsculas e sequências de pontos de exclamação tenham sido atenuados.

Testando o conjunto de dados

Para verificar se o novo conjunto de dados é realmente útil, os autores treinaram dois tipos de modelos computacionais com ele. Um foi uma abordagem clássica de contagem de palavras, e o outro foi um modelo transformer moderno conhecido como DistilBERT, capaz de capturar contexto em sentenças. Pediram a esses modelos que previssem os rótulos de tópico e o humor geral de cada discussão. O transformer teve desempenho consistentemente melhor, especialmente em casos com múltiplos tópicos difíceis, o que sugere que o UXPID é rico o suficiente para apoiar ferramentas avançadas de linguagem em tarefas como detecção de problemas e análise de sentimento.

O que isso significa para ferramentas futuras

Em termos simples, o artigo mostra que é possível transformar tópicos ruidosos e privados de fórum em um recurso limpo e compartilhável que ainda reflete o uso real de produtos. O UXPID oferece milhares de conversas anonimizadas e rotuladas que outros podem usar para construir e comparar sistemas que leem e entendem feedback de usuários em escala. Isso pode levar a ferramentas de suporte mais inteligentes, melhores decisões de design de produto e novas formas de detectar padrões na experiência do cliente, tudo isso respeitando a privacidade de quem escreveu as postagens originais.

Citação: Kulyabin, M., Joosten, J., Ulan uulu, C. et al. User eXperience Perception Insights Dataset (UXPID): Synthetic User Feedback from Public Industrial Forums. Sci Data 13, 762 (2026). https://doi.org/10.1038/s41597-026-07253-9

Palavras-chave: feedback do usuário, fóruns técnicos, processamento de linguagem natural, conjunto de dados sintético, experiência do usuário