Clear Sky Science · ru
Гибридная рекомендательная платформа с доменно-адаптированными встраиваниями RoBERTa для улучшенной персонализации в электронной коммерции
Более умные предложения при покупках
Каждый, кто покупает в интернете, видел рекомендации товаров, которые кажутся удивительно точными — или, не реже, совсем промахиваются. В этой статье рассматривается новый подход к построению рекомендательных систем, который помогает им лучше понимать и о чем на самом деле товары, и что людям действительно нравится, даже когда исходных данных мало. Цель — сделать списки «Вам также может понравиться» точнее, разнообразнее и надежнее для повседневных покупателей.

Почему онлайн-подборы часто промахиваются
Традиционные рекомендательные системы опираются на два основных приема. Один сравнивает вас с людьми, которые в прошлом вели себя похоже, предлагая товары, которые понравились им. Другой анализирует признаки товара — такие как категория, бренд или простые ключевые слова — и сопоставляет их с вашими известными предпочтениями. Эти подходы дают сбои при недостатке данных, при появлении новых пользователей или товаров (проблема «cold-start») или когда ваши вкусы меняются со временем. Многие современные «гибридные» системы пытаются объединить несколько сигналов, но часто становятся сложными, медленными и трудными для интерпретации, особенно при работе с миллионами пользователей и товаров.
Привлечение понимания языка в рекомендации
Авторы предлагают архитектуру под названием HyReC, которая опирается на то, как люди описывают товары. Она использует мощную языковую модель RoBERTa, дополнительно дообученную на текстах электронной коммерции, чтобы «свободно владеть» обзорами и описаниями товаров в категории товаров для детей. Эта модель превращает необработанный текст — названия, описания и лучшие отзывы — в плотные числовые отпечатки, захватывающие смысл и сентимент: хвалят ли за прочность, жалуются на протечки или упоминают простоту в использовании. Эти контентные отпечатки помогают HyReC распознавать сходство между товарами, даже если у них разные бренды или формулировки несколько отличаются.

Смешение поведения, привычек и мнений
Один только текст недостаточен, поэтому HyReC также извлекает знания из реального поведения пользователей. Глубокая нейронная сеть анализирует шаблоны того, какие пользователи оценивали какие товары, обнаруживая скрытые связи — например, что люди, которым нравятся определенные прогулочные коляски, также склонны выбирать конкретные автокресла. Кроме того, система вычисляет простые и понятные статистики, такие как средняя оценка пользователя, его требовательность или щедрость, частота взаимодействий и степень скошенности оценок в сторону очень высоких или очень низких баллов. Похожие статистики рассчитываются для товаров. Эти поведенческие сводки помогают системе рассуждать о пользователях с небольшим количеством оценок или о недавно появившихся товарах, облегчая проблемы cold-start.
Позволяя модели решать, что важнее
Ключевая инновация HyReC — способ объединения разных сигналов. Вместо простого конкатенирования всех чисел система использует механизм «внимания», который учится по-разному взвешивать контент, коллаборативные паттерны и поведенческие статистики для каждой пары пользователь–товар. Для одного покупателя вес может давать преимущество тексту отзывов; для другого — преобладать исторические шаблоны оценок. Затем модель подает это смешанное представление в слой ранжирования, специально разработанный для сортировки кандидатов так, чтобы наиболее релевантные поднимались наверх. Обучение проводится с использованием методов оптимизации, адаптированных для задач ранжирования, что помогает системе хорошо работать в реальных списках рекомендаций «Top-K», а не только предсказывать сырые оценки.
Доказательство подхода на реальных данных покупок
Для проверки HyReC авторы используют набор данных Amazon Baby с более чем 56 000 отзывов по тысячам пользователей и товаров. Они сравнивают свою модель с несколькими современными базовыми методами, включая подходы на основе глубокого обучения и графов. HyReC демонстрирует существенно меньшие ошибки предсказания и почти полное совпадение с фактическими пользовательскими оценками, а также достигает очень высокой полноты и F1-меры при оценке в виде системы ранжирования. Дополнительные эксперименты показывают, что удаление любого компонента — текстовых встраиваний, коллаборативных сигналов, поведенческих статистик, механизма внимания или слоя ранжирования — заметно ухудшает результат, что подчеркивает важность каждой части.
Что это значит для обычных пользователей
Проще говоря, работа показывает, что рекомендательные системы могут стать одновременно умнее и прозрачнее, объединяя то, что люди говорят, что они делают, и как ведут себя со временем, вместо опоры на единственный источник информации. Для покупателей это может означать более релевантные предложения, лучшее обнаружение новых или нишевых товаров и меньше разочарований при просмотре. Для компаний это предлагает масштабируемый способ работы с разреженными данными и меняющимися вкусами без превращения систем в черные ящики. Авторы предполагают, что будущие расширения могут включать еще более богатые сигналы — например, изображения или долгосрочные петли обратной связи — чтобы приблизить онлайн‑персонализацию к тому, как вдумчивый человеческий продавец направлял бы ваш выбор.
Цитирование: Rajpoot, C.S., Tiwari, V. & Vishwakarma, S.K. A hybrid recommendation framework utilizing domain-adaptive RoBERTa embeddings for enhanced personalization in e-commerce. Sci Rep 16, 14541 (2026). https://doi.org/10.1038/s41598-026-38853-5
Ключевые слова: рекомендательные системы, персонализация в электронной коммерции, гибридные рекомендации, глубокое обучение, поведение пользователей