Clear Sky Science · ja
自己教師あり概念の導入とドメインオントロジー構築によるEコマース商品の原材料自動分類手法
成分別にオンライン商品を分類する意義
小麦粉やスナックをオンラインで買うとき、多くの人は製品の用途—ケーキミックスやパン用粉、製菓材料—で検索します。しかし企業や規制当局、健康志向の消費者は、製品が何でできているかを重視することが多い。現状のEコマースサイトは原材料別に商品を整理することが少なく、これを手作業で修正するには何百万もの商品ページを個別に確認する必要があります。本研究は、専門知識と機械学習を組み合わせて、オンライン商品をその基礎となる原材料別に自動で再分類する手法を提案します。
混在した商品棚が抱える問題
大手Eコマースプラットフォームは何百万点もの商品を掲載し、通常は「製品の機能」—「製菓ミックス」や「スナック」—で並べます。そのため同じ穀物から作られた二つの小麦粉が別々のカテゴリに入り、用途が似ているために異なる原材料の商品が一緒に並ぶことがあります。これは消費者にとっては便利ですが、原材料別に販売や品質を追跡したい事業者やアナリストにとっては問題です。既存の自動分類手法は主にプラットフォームのラベルを模倣し、多数の手動タグ付け例を必要とするためコストが高く、企業が求める原材料ベースの視点を解決できていません。

製品原材料のスマートな地図を作る
研究者らはまず、領域の専門家に依頼して小麦粉の世界を構造化した「地図」、すなわちドメインオントロジーを設計しました。平たく言えば、これは小麦、全粒粉、トウモロコシ、そば粉、米、もち米などの粉類の種類と、原料の穀物、グルテン強度、品質等級、ブランド、原産地といった識別に重要な属性を整理したものです。続いて中国の複数プラットフォームの実際の商品ページから、ブランド名や典型的な原産地表記など、これら属性に対応する数千の具体的なフレーズを収集しました。パターンマッチングルールと文字列間の距離尺度を用いて、綴り違いや同義語、同種の粉に対するわずかな呼称差などを検出し、ドメイン特化の語彙リストに統合しました。
データに自己ラベル付けさせる
次に著者らは自己教師あり学習の考え方を応用しました。すべてのサンプルを人手でタグ付けする代わりに、データ自身に多くのラベルを生成させます。オントロジーと語彙リストを用いて、どの属性の組み合わせがあるカテゴリに一致するかを示すルールを定義します。商品情報にトウモロコシが主原料として明確に記載され、その他の属性がトウモロコシ粉のプロファイルに合致すれば、その出品を「標準的」なトウモロコシ粉の事例とみなしてカテゴリーラベルを自動的に受け入れます。属性が専門家ルールと矛盾するか曖昧な出品は「非標準」としてラベルを付けずに除外します。こうしてモデルは、手作業による確認を行わずに、混沌としたカタログデータから数千件のクリーンな訓練例を収集します。

原材料を認識する分類器を教える
標準例を得た後、システムは各商品のテキストを機械可読な特徴へ変換します。中国語テキスト向けに開発された強力な言語モデルを使ってブランドや成分名、原産地などの重要な実体を抽出し、これをドメイン語彙リストに追加します。トークナイザが商品タイトルや説明を意味のある断片に分割し、一般的なフィラー語を除去して、各用語がデータセット全体でどれほど識別力を持つかの数値プロファイルを構築します。これらのプロファイルと自動割当された原材料カテゴリを用いて、従来型の機械学習分類器を訓練します。著者らは1万8千点を超える小麦粉の出品で複数のアルゴリズムを試し、比較的単純なロジスティック回帰モデルが速度と精度のバランスで最も良好であることを見出しました。
システムの性能と汎用的AIに勝る理由
中国の主要プラットフォームから収集した小麦粉データに対し、原材料ベースの分類器は全体で約91%の精度を達成しました。標準的な小麦粉やもち米粉などの一般的な粉の認識に特に強く、穀物を混ぜた商品が多いそば粉やトウモロコシのような難しいカテゴリでも合理的な性能を示しました。ドメイン特化の語彙リストを追加することは、汎用的なテキスト特徴のみを使う場合と比べて明確に結果を改善しました。研究チームは、事前学習なしで同じタスクを行わせた大規模汎用言語モデルとも比較しており、そのゼロショットモデルはとくに希少な粉類で劣り、専門知識とターゲットを絞った機械学習を組み合わせる利点を示しました。
オンライン購買とその先に意味すること
簡潔に言えば、本研究はEコマースプラットフォームが用途別だけでなく原材料別にも自動で商品を再分類できることを示しています。専門家が作成した原材料に関する知識を再利用可能な「地図」として符号化し、商品ページ自身にラベル付けさせることで、手動タグ付けの必要性を大幅に減らしつつ高い精度を維持できます。事業者やアナリストにとって、これは販売統計の精緻化、品質管理の向上、アレルゲン追跡や栄養トレンドへのより的確な対応などへの道を開きます。小麦粉で検証された手法ですが、専門家構築のオントロジーと自己ラベリングルール、軽量な分類器というレシピは、原材料が重要な他の多くの製品カテゴリにも適用可能です。
引用: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
キーワード: Eコマース分類, 製品成分, 自己教師あり学習, ドメインオントロジー, テキストマイニング