Clear Sky Science · zh
通过引入自监督概念与构建领域本体实现电商商品原料的自动分类方法
按原料整理线上商品为何重要
当你在网上购买面粉或零食时,通常按产品用途搜索——蛋糕预拌粉、面包粉、烘焙原料等。但企业、监管方乃至注重健康的消费者更关心的是这些产品由什么原料组成。现有电商网站很少按原材料来组织商品,要手工修正则意味着逐页核查数百万商品。该研究提出一种自动方法,通过专家知识与机器学习相结合,将线上商品按其基础原料重新归类。
商品货架混乱的问题
大型电商平台列出数百万商品,通常按功能来排列:“烘焙预拌粉”或“零食”,而不是按小麦、荞麦或玉米等原料。因此,来自同一谷物的两种面粉可能分属不同类目,而成分不同但用途相近的产品却会被放在一起。这对购物者方便,但对想要按原料跟踪销量或品质的商家与分析师来说很不利。现有自动分类方法大多复制平台自带的标签,并且依赖大量人工标注样本,成本高昂,且仍无法满足基于原料的业务视角。

构建智能的原料地图
研究人员首先请领域专家构建一个结构化的“面粉世界”地图,称为领域本体。通俗地说,这是一份对面粉类型的详尽清单——例如小麦、全麦、玉米、荞麦、大米和糯米——以及区分它们的关键属性,包括原料谷物、筋力、质量等级、品牌和产地。随后,团队从多个中文平台的真实商品页面中收集了数千个与这些属性相匹配的具体短语,如品牌名或常见的产地表述。他们使用规则匹配和字符串距离度量来捕捉近似拼写与同义表达,例如对同一面粉略有差异的称谓,并将这些整合成领域特定的词表。
让数据为自己打标签
接着,作者采用了自监督学习的思路:不要求人工标注每一个样本,而是让数据自己生成大量标签。利用本体和词表,他们编写规则来判断哪些原料属性应与某一类别一致。如果某商品详情明确指出以玉米为主要谷物且其它属性符合玉米粉的画像,系统将该条目视为玉米粉的“标准”示例并自动接受其类别标签。那些属性与专家规则冲突或过于模糊的条目,则被视为“非标准”并作为未标注样本留存。如此,模型直接从杂乱的目录数据中收获数千个清洁的训练样本,而无需人工逐条检查。

教分类器识别原材料
在获得标准示例后,系统将每个商品的文本转换为机器可读的特征。系统使用一款针对中文开发的强大语言模型抽取重要实体,如品牌、原料名称和产地,并将这些加入领域词表。随后分词器将商品标题与描述切分为有意义的片段,去除常见的填充词,并构建每个词在数据集中区分度的数值画像。经典机器学习分类器在这些画像和自动分配的原料类别上训练。作者在超过1.8万条面粉商品上测试了若干算法,发现逻辑回归这种相对简单的方法在速度与准确度之间取得了最佳平衡。
系统表现如何——以及为何优于通用AI
在从中国主要平台收集的面粉数据上,该基于原料的分类器总体准确率约为91%。它在识别常见面粉(如普通小麦粉和糯米粉)方面表现尤为突出,面对像荞麦和玉米这样常常混配的难分类别时也能保持较好表现。与仅使用现成文本特征相比,加入领域特定词表显著提升了效果。团队还将该方法与一款未在数据集上预训练、直接零样本执行相同任务的大型通用语言模型进行了比较。后者在稀有面粉类型上的表现明显落后,强调了将专家知识与定向机器学习结合的重要性,而不是仅依赖广泛但浅层的语言理解。
对线上购物及更广领域的意义
简而言之,该研究表明,电商平台可以自动按商品的构成原料而非仅按用途来重组商品。通过将关于原料的专家知识编码为可重用的地图,并让商品页面自我标注,这种方法大幅减少了人工标注需求,同时保持了高准确率。对商家和分析师而言,这意味着更清晰的销售统计、更好的质量控制,以及对过敏原追踪或营养趋势等问题更精准的响应。尽管研究以面粉为例,但这一配方——专家构建的本体加自标注规则与轻量级分类器——可推广到其他任何原料至关重要的产品类别。
引用: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
关键词: 电商分类, 产品原料, 自监督学习, 领域本体, 文本挖掘