Clear Sky Science · ru
Автоматический метод классификации сырья товаров в электронной торговле через внедрение самоконтролируемых концепций и построение предметной онтологии
Почему важно сортировать товары онлайн по ингредиентам
Когда вы покупаете муку или закуски в интернете, чаще всего ищете по назначению — смеси для выпечки, хлебная мука, ингредиенты для выпечки. Но компании, регуляторы и даже внимательные к здоровью покупатели часто больше заинтересованы в том, из чего эти продукты сделаны. Современные площадки электронной торговли редко организуют товары по сырью, и исправление этого вручную потребовало бы проверки миллионов карточек товаров по одной. В этом исследовании предлагается автоматический способ перераспределения онлайн‑товаров по базовым ингредиентам с использованием сочетания экспертных знаний и машинного обучения.
Проблема смешанных витрин
Крупные платформы электронной торговли помещают миллионы позиций и обычно группируют их по функции: «смесь для выпечки» или «закуска», а не по тому, из пшеницы это, гречихи или кукурузы. В результате две муки из одного и того же зерна могут оказаться в разных категориях, а продукты с разными ингредиентами — вместе, потому что используются для схожих задач. Это удобно для покупателей, но создает проблемы для продавцов и аналитиков, которые хотят отслеживать продажи или качество по сырьевому признаку. Существующие автоматические методы классификации в основном копируют метки платформ и требуют большого числа вручную размеченных примеров, что дорого и при этом не решает задачи просмотра по ингредиентам, которая нужна бизнесу.

Построение «умной карты» ингредиентов продуктов
Исследователи подошли к проблеме, сначала попросив экспертов сформировать структурированную «карту» мира муки — предметную онтологию. Проще говоря, это аккуратно составленный список типов муки — например пшеничная, цельнозерновая, кукурузная, гречневая, рисовая и клейковинная — и ключевых признаков, которые их различают: исходное зерно, сила клейковины, класс качества, бренд и место происхождения. Затем команда собрала с реальных карточек товаров на нескольких китайских площадках тысячи конкретных фраз, соответствующих этим признакам, например названия брендов или типичные указания на происхождение. Они использовали правила сопоставления шаблонов и меру расстояния между строками, чтобы поймать близкие по написанию варианты и синонимы, например слегка отличающиеся названия одного и того же типа муки, и включили их в предметный словарь.
Когда данные сами помечают себя
Далее авторы адаптировали идею самоконтролируемого обучения: вместо того чтобы просить людей вручную размечать каждый образец, они позволили данным создавать многие собственные метки. Используя онтологию и словарь, они прописали правила, которые определяют, как атрибуты ингредиентов должны согласовываться с категорией. Если в описании товара явно указана кукуруза как основной злак и остальные признаки соответствуют профилю кукурузной муки, система рассматривает эту карточку как «стандартный» пример кукурузной муки и автоматически принимает её категорию. Записи, чьи атрибуты противоречат экспертным правилам или слишком расплывчаты, считаются «нестандартными» и откладываются как немаркированные. Таким образом модель собирает тысячи чистых обучающих примеров прямо из неструктурированных данных каталога без ручной проверки.

Обучение классификатора распознавать сырьё
Имея стандартные примеры, система превращает текст каждой карточки в машиночитаемые признаки. Используется мощная языковая модель, изначально разработанная для китайского текста, которая извлекает важные сущности — бренды, названия ингредиентов, места происхождения — и добавляет их в предметный словарь. Далее токенизатор разбивает заголовки и описания на смысловые фрагменты, удаляет распространённые служебные слова и строит числовой профиль того, насколько характерно каждое выражение для всего набора данных. На этих профилях и автоматически назначенных категориях ингредиентов обучают классические методы машинного обучения. Авторы протестировали несколько алгоритмов на более чем 18 000 карточек с мукой и обнаружили, что логистическая регрессия, относительно простой метод, обеспечивает наилучшее сочетание скорости и точности.
Насколько хорошо работает система — и почему она лучше общей ИИ
На данных о муке, собранных с крупных китайских платформ, классификатор по ингредиентам показал примерно 91 процент точности в целом. Он особенно хорошо распознавал распространённые муки, такие как обычная пшеничная и клейковинная рисовая мука, и сохранял приемлемую точность для более сложных категорий, таких как гречневая и кукурузная, где продукты часто смешаны. Добавление предметного словаря заметно улучшило результаты по сравнению с использованием только стандартных текстовых признаков. Команда также сравнила свой метод с большой универсальной языковой моделью, которой поручили ту же задачу без предварительного обучения на данном наборе. Эта «нулевая» модель отставала, особенно на редких типах муки, что подчёркивает преимущество сочетания экспертных знаний с целенаправленным машинным обучением вместо надежды только на широкий, но поверхностный языковой интеллект.
Что это значит для онлайн‑шопинга и дальше
Проще говоря, исследование показывает, что платформы электронной торговли могут автоматически группировать товары по тому, из чего они сделаны, а не только по их назначению. Кодируя экспертные знания об ингредиентах в повторно используемую карту и позволяя карточкам товаров автоматически помечать себя, подход существенно снижает потребность в ручной разметке при сохранении высокой точности. Для продавцов и аналитиков это открывает возможности для более чистой статистики продаж, лучшего контроля качества и более точной реакции на вопросы вроде отслеживания аллергенов или тенденций в питании. Хотя демонстрация проведена на примере муки, рецепт — онтологии, созданные экспертами, плюс правила самопометки и лёгкие классификаторы — может быть адаптирован к многим другим категориям товаров, где сырьё действительно имеет значение.
Цитирование: Lei, B., Wang, J. & Shen, C. Automatic classification method of e-commerce commodity raw materials through the introduction of self-supervised concepts and the construction of domain ontology. Sci Rep 16, 8058 (2026). https://doi.org/10.1038/s41598-026-38214-2
Ключевые слова: классификация в электронной торговле, ингредиенты продукта, самостоятельное обучение, предметная онтология, извлечение информации из текста