Clear Sky Science · pt
Método automático de classificação de matérias‑primas de produtos de comércio eletrônico por meio da introdução de conceitos auto‑supervisionados e da construção de uma ontologia de domínio
Por que ordenar produtos online por ingredientes importa
Ao comprar farinha ou salgadinhos online, normalmente você busca pelo que o produto faz — mistura para bolo, farinha de pão, ingredientes para assar. Mas empresas, reguladores e até consumidores preocupados com a saúde costumam se interessar mais pelo que esses produtos contêm. Os sites de comércio eletrônico raramente organizam mercadorias por suas matérias‑primas, e corrigir isso manualmente exigiria checar milhões de páginas de produto uma a uma. Este estudo propõe um método automático para reagrupar produtos online com base nos ingredientes subjacentes, usando uma combinação de conhecimento de especialistas e aprendizado de máquina.
O problema das prateleiras misturadas
Grandes plataformas de e‑commerce listam milhões de itens e normalmente os organizam por função: “mistura para assar” ou “lanche”, em vez de trigo, trigo sarraceno ou milho. Como resultado, duas farinhas feitas do mesmo grão podem acabar em categorias diferentes, enquanto produtos com ingredientes distintos podem ser colocados juntos porque são usados para fins semelhantes. Isso é conveniente para os consumidores, mas problemático para comerciantes e analistas que querem monitorar vendas ou qualidade por matéria‑prima. Métodos automáticos existentes em geral replicam as próprias etiquetas da plataforma e exigem muitos exemplos rotulados manualmente, o que é caro e ainda não resolve a visão baseada em ingredientes que os negócios precisam.

Construindo um mapa inteligente dos ingredientes dos produtos
Os pesquisadores abordaram isso pedindo primeiro a especialistas do domínio que desenhassem um “mapa” estruturado do universo das farinhas, chamado ontologia de domínio. Em termos simples, trata‑se de uma lista cuidadosa de tipos de farinha — como trigo, trigo integral, milho, trigo sarraceno, arroz e arroz glutinoso — e dos traços-chave que os distinguem, incluindo grão cru, força do glúten, grau de qualidade, marca e local de origem. A partir de páginas reais de produtos em várias plataformas chinesas, a equipe então coletou milhares de expressões concretas que correspondem a esses traços, como nomes de marcas ou formulações típicas para origem. Eles confiaram em regras de correspondência por padrão e numa medida de distância entre strings para capturar grafias próximas e sinônimos, como nomes ligeiramente diferentes para o mesmo tipo de farinha, e integraram esses termos a uma lista de palavras específica do domínio.
Deixando os dados rotularem a si mesmos
Em seguida, os autores adaptaram a ideia do aprendizado auto‑supervisionado: em vez de pedir que humanos rotulem cada amostra, deixaram os próprios dados criarem muitos rótulos. Usando a ontologia e a lista de palavras, escreveram regras que determinam como os atributos de ingrediente devem se alinhar com uma categoria. Se os detalhes de um produto mencionam claramente milho como o grão principal e outros traços coincidem com o perfil de farinha de milho, o sistema trata esse anúncio como um exemplo “padrão” de farinha de milho e aceita automaticamente seu rótulo de categoria. Anúncios cujos atributos conflitam com as regras de especialistas, ou que são muito vagos, são tratados como “não padrão” e separados como casos não rotulados. Dessa forma, o modelo colhe milhares de exemplos de treinamento limpos diretamente de catálogos desorganizados, sem inspeção manual.

Ensinando o classificador a reconhecer matérias‑primas
Com os exemplos padrão em mãos, o sistema transforma o texto de cada produto em features legíveis por máquina. Ele usa um modelo de linguagem poderoso, originalmente desenvolvido para texto em chinês, para extrair entidades importantes como marcas, nomes de ingredientes e locais de origem, e adiciona essas entidades à lista de palavras do domínio. Um tokenizador então segmenta títulos e descrições dos produtos em blocos significativos, remove palavras de preenchimento comuns e constrói um perfil numérico de quão distintivo cada termo é em todo o conjunto de dados. Classificadores clássicos de aprendizado de máquina são treinados nesses perfis e nas categorias de ingredientes atribuídas automaticamente. Os autores testaram vários algoritmos em mais de 18.000 anúncios de farinha e descobriram que um modelo de regressão logística, um método relativamente simples, ofereceu o melhor equilíbrio entre velocidade e precisão.
Quão bem o sistema funciona — e por que supera IA genérica
Nos dados de farinha coletados de grandes plataformas chinesas, o classificador baseado em ingredientes alcançou cerca de 91% de acurácia geral. Foi particularmente eficaz em reconhecer farinhas comuns, como farinha de trigo padrão e farinha de arroz glutinoso, e ainda apresentou desempenho razoável em categorias mais difíceis como trigo sarraceno e milho, onde os produtos frequentemente misturam grãos. A adição da lista de palavras específica do domínio melhorou claramente os resultados em comparação ao uso apenas de features de texto genéricas. A equipe também comparou seu método com um grande modelo de linguagem de uso geral solicitado a realizar a mesma tarefa sem treinamento prévio no conjunto de dados. Esse modelo em zero‑shot ficou atrás, especialmente em tipos de farinha mais raros, ressaltando a vantagem de combinar conhecimento de especialistas com aprendizado de máquina direcionado em vez de depender apenas de compreensão linguística ampla, porém superficial.
O que isso significa para compras online e além
Em termos simples, o estudo mostra que plataformas de e‑commerce podem reagrupar itens automaticamente pelo que são feitos, não apenas pelo uso. Ao codificar conhecimento de especialistas sobre ingredientes em um mapa reutilizável e permitir que páginas de produto se rotulem, a abordagem reduz drasticamente a necessidade de marcação manual mantendo alta precisão. Para comerciantes e analistas, isso abre caminho para estatísticas de vendas mais limpas, melhor controle de qualidade e respostas mais precisas a questões como rastreamento de alérgenos ou tendências nutricionais. Embora demonstrado em farinhas, a receita — ontologias construídas por especialistas somadas a regras de auto‑rotulagem e classificadores leves — pode ser adaptada a muitas outras categorias de produtos sempre que as matérias‑primas realmente importarem.
Citação: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
Palavras-chave: classificação em comércio eletrônico, ingredientes do produto, aprendizado auto‑supervisionado, ontologia de domínio, mineração de texto