Clear Sky Science · ru

Автоматический метод классификации сырья товаров в электронной торговле через внедрение самоконтролируемых концепций и построение предметной онтологии

· Назад к списку

Почему важно сортировать товары онлайн по ингредиентам

Когда вы покупаете муку или закуски в интернете, чаще всего ищете по назначению — смеси для выпечки, хлебная мука, ингредиенты для выпечки. Но компании, регуляторы и даже внимательные к здоровью покупатели часто больше заинтересованы в том, из чего эти продукты сделаны. Современные площадки электронной торговли редко организуют товары по сырью, и исправление этого вручную потребовало бы проверки миллионов карточек товаров по одной. В этом исследовании предлагается автоматический способ перераспределения онлайн‑товаров по базовым ингредиентам с использованием сочетания экспертных знаний и машинного обучения.

Проблема смешанных витрин

Крупные платформы электронной торговли помещают миллионы позиций и обычно группируют их по функции: «смесь для выпечки» или «закуска», а не по тому, из пшеницы это, гречихи или кукурузы. В результате две муки из одного и того же зерна могут оказаться в разных категориях, а продукты с разными ингредиентами — вместе, потому что используются для схожих задач. Это удобно для покупателей, но создает проблемы для продавцов и аналитиков, которые хотят отслеживать продажи или качество по сырьевому признаку. Существующие автоматические методы классификации в основном копируют метки платформ и требуют большого числа вручную размеченных примеров, что дорого и при этом не решает задачи просмотра по ингредиентам, которая нужна бизнесу.

Figure 1
Figure 1.

Построение «умной карты» ингредиентов продуктов

Исследователи подошли к проблеме, сначала попросив экспертов сформировать структурированную «карту» мира муки — предметную онтологию. Проще говоря, это аккуратно составленный список типов муки — например пшеничная, цельнозерновая, кукурузная, гречневая, рисовая и клейковинная — и ключевых признаков, которые их различают: исходное зерно, сила клейковины, класс качества, бренд и место происхождения. Затем команда собрала с реальных карточек товаров на нескольких китайских площадках тысячи конкретных фраз, соответствующих этим признакам, например названия брендов или типичные указания на происхождение. Они использовали правила сопоставления шаблонов и меру расстояния между строками, чтобы поймать близкие по написанию варианты и синонимы, например слегка отличающиеся названия одного и того же типа муки, и включили их в предметный словарь.

Когда данные сами помечают себя

Далее авторы адаптировали идею самоконтролируемого обучения: вместо того чтобы просить людей вручную размечать каждый образец, они позволили данным создавать многие собственные метки. Используя онтологию и словарь, они прописали правила, которые определяют, как атрибуты ингредиентов должны согласовываться с категорией. Если в описании товара явно указана кукуруза как основной злак и остальные признаки соответствуют профилю кукурузной муки, система рассматривает эту карточку как «стандартный» пример кукурузной муки и автоматически принимает её категорию. Записи, чьи атрибуты противоречат экспертным правилам или слишком расплывчаты, считаются «нестандартными» и откладываются как немаркированные. Таким образом модель собирает тысячи чистых обучающих примеров прямо из неструктурированных данных каталога без ручной проверки.

Figure 2
Figure 2.

Обучение классификатора распознавать сырьё

Имея стандартные примеры, система превращает текст каждой карточки в машиночитаемые признаки. Используется мощная языковая модель, изначально разработанная для китайского текста, которая извлекает важные сущности — бренды, названия ингредиентов, места происхождения — и добавляет их в предметный словарь. Далее токенизатор разбивает заголовки и описания на смысловые фрагменты, удаляет распространённые служебные слова и строит числовой профиль того, насколько характерно каждое выражение для всего набора данных. На этих профилях и автоматически назначенных категориях ингредиентов обучают классические методы машинного обучения. Авторы протестировали несколько алгоритмов на более чем 18 000 карточек с мукой и обнаружили, что логистическая регрессия, относительно простой метод, обеспечивает наилучшее сочетание скорости и точности.

Насколько хорошо работает система — и почему она лучше общей ИИ

На данных о муке, собранных с крупных китайских платформ, классификатор по ингредиентам показал примерно 91 процент точности в целом. Он особенно хорошо распознавал распространённые муки, такие как обычная пшеничная и клейковинная рисовая мука, и сохранял приемлемую точность для более сложных категорий, таких как гречневая и кукурузная, где продукты часто смешаны. Добавление предметного словаря заметно улучшило результаты по сравнению с использованием только стандартных текстовых признаков. Команда также сравнила свой метод с большой универсальной языковой моделью, которой поручили ту же задачу без предварительного обучения на данном наборе. Эта «нулевая» модель отставала, особенно на редких типах муки, что подчёркивает преимущество сочетания экспертных знаний с целенаправленным машинным обучением вместо надежды только на широкий, но поверхностный языковой интеллект.

Что это значит для онлайн‑шопинга и дальше

Проще говоря, исследование показывает, что платформы электронной торговли могут автоматически группировать товары по тому, из чего они сделаны, а не только по их назначению. Кодируя экспертные знания об ингредиентах в повторно используемую карту и позволяя карточкам товаров автоматически помечать себя, подход существенно снижает потребность в ручной разметке при сохранении высокой точности. Для продавцов и аналитиков это открывает возможности для более чистой статистики продаж, лучшего контроля качества и более точной реакции на вопросы вроде отслеживания аллергенов или тенденций в питании. Хотя демонстрация проведена на примере муки, рецепт — онтологии, созданные экспертами, плюс правила самопометки и лёгкие классификаторы — может быть адаптирован к многим другим категориям товаров, где сырьё действительно имеет значение.

Цитирование: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2

Ключевые слова: классификация в электронной торговле, ингредиенты продукта, самостоятельное обучение, предметная онтология, извлечение информации из текста