Clear Sky Science · ru

Практическая система для автоматического распознавания товаров и генерации каталогов: набор данных, модель и анализ

2026-05-12 · Назад к списку

Умные магазинные полки для занятых покупателей

Тот, кто когда-либо искал конкретную коробку хлопьев или пользовался самообслуживанием, знает: полки магазинов — многолюдные и запутанные места. В этой статье исследуется, как компьютеры могут смотреть на обычные продуктовые полки и автоматически распознавать, что на них находится, используя обычные фотографии вместо штрихкодов. Цель — ускорить и удешевить такие задачи, как подсчёт запасов, создание каталогов и поиск товаров по телефону, снизив зависимость от ручной работы.

Figure 1. Как фотография полок, сделанная на телефон, может превратиться в автоматический список товаров для ритейлеров и покупателей

Почему полки сложны для компьютеров

На первый взгляд обучение компьютера видеть товары может показаться простым: достаточно показать множество фотографий каждого предмета. На деле сцены в супермаркетах хаотичны. Товары появляются в разных размерах — от крупного плана в руке покупателя до дальних планов с камер наблюдения. Упаковки похожи друг на друга и отличаются мелкими деталями, иногда они частично скрыты за соседями. Освещение меняется, полки переставляют, а бренды различаются в зависимости от региона. Существующие коллекции изображений для исследований часто игнорируют эти сложности: в них небольшое число товаров, контролируемое освещение или только крупные планы. Это затрудняет разработку систем, которые действительно работают в реальных магазинах.

Новая реалистичная коллекция изображений продуктовых полок

Чтобы устранить этот разрыв, авторы создали новую коллекцию изображений Grocer-Help. Она содержит 13 771 снимок примерно 4 000 различных продуктовых наименований, сгруппированных в 349 классов по брендам. Изображения получены в восьми магазинах в пяти индийских штатах и сняты на шесть типов мобильных камер. Сцены варьируются от крупного плана нескольких предметов до общих видов целых проходов, и включают повседневные особенности: блики, смазанные кадры, захламлённые фоны и частично закрытые этикетки. Каждый товар на изображении аккуратно отмечен рамкой, в сумме это более 166 000 аннотированных объектов. Набор данных разделён на три основных типа изображений: крупные планы, дальние виды и чистые фотографии из онлайн-каталогов, что позволяет исследователям изучать, как расстояние и стиль съёмки влияют на распознавание.

Компактная модель, которая видит на многих масштабах

Параллельно с набором данных авторы предлагают компактную модель обнаружения, спроектированную для работы с товарами разных размеров в одной сцене. Вместо того чтобы обрабатывать мелкие и крупные объекты отдельно, модель использует специальный блок, который собирает визуальные подсказки одновременно на нескольких масштабах. Затем эти подсказки складываются в «пирамиду» карт признаков, где каждый слой фокусируется на своём уровне детализации. Это помогает системе прослеживать товары от далёких видов полок до тонких отличий между схожими упаковками. Модель также оптимизирована для эффективности: в ней применяются более лёгкие операции, чтобы она могла работать на устройствах с ограничённой вычислительной мощностью, что делает её более пригодной для использования в магазинах или на потребительском оборудовании.

Figure 2. Как модель компьютерного зрения объединяет детали на разных масштабах, чтобы выделять прямоугольники вокруг товаров на переполненных полках

Тестирование на разных наборах данных, в разных магазинах и с разных расстояний

Исследователи сравнили свою модель с популярными системами обнаружения объектов, такими как различные версии YOLO и RetinaNet, на нескольких существующих продуктовых наборах данных и на Grocer-Help. На новом наборе модель демонстрирует уверенные результаты по обнаружению товаров, при этом использует меньше параметров, чем многие конкуренты. Она показывает особенно хорошую точность и полноту — то есть умеет и избегать ложных срабатываний, и не пропускать объекты, хотя иногда её рамки оказываются менее плотными при очень строгих правилах перекрытия. Подробные испытания показывают, что производительность зависит от способа съёмки: крупные планы распознаются проще, дальние виды полок — сложнее, а включение в обучение фотографий из онлайн-каталогов может ухудшать результаты из‑за сильной разницы с реальными сценами магазина. Сравнения между магазинами также показывают, что опрятные полки и коробочная упаковка помогают детектору.

Что это значит для повседневной торговли

Проще говоря, эта работа демонстрирует путь от простого сканирования штрихкодов к системам на основе камеры, которые «видят» переполненные полки. Предложив большой реалистичный набор данных и эффективную модель, способную работать с товарами на разных масштабах и под разными углами, исследование создаёт основу для практичных инструментов: автоматических проверок запасов, формирования каталогов по полкам и более умных мобильных приложений для покупок. Хотя остаются проблемы — особенно на плотных полках и для товаров, которые редко встречаются в обучении — Grocer-Help и омнимасштабная модель приближают автоматическое распознавание товаров к повседневному использованию в реальном ритейле.

Цитирование: Sah, M., Mathew, J. & Dayananda, P. A real-world framework for automated product recognition and catalog generation: dataset, model, and analysis. Sci Rep 16, 14834 (2026). https://doi.org/10.1038/s41598-026-42266-9

Ключевые слова: распознавание товаров в магазине, обнаружение объектов, компьютерное зрение в ритейле, эталонный набор данных, автоматизация учёта