Clear Sky Science · ru

Практическая система для автоматического распознавания товаров и генерации каталогов: набор данных, модель и анализ

· Назад к списку

Умные магазинные полки для занятых покупателей

Тот, кто когда-либо искал конкретную коробку хлопьев или пользовался самообслуживанием, знает: полки магазинов — многолюдные и запутанные места. В этой статье исследуется, как компьютеры могут смотреть на обычные продуктовые полки и автоматически распознавать, что на них находится, используя обычные фотографии вместо штрихкодов. Цель — ускорить и удешевить такие задачи, как подсчёт запасов, создание каталогов и поиск товаров по телефону, снизив зависимость от ручной работы.

Figure 1. Как фотография полок, сделанная на телефон, может превратиться в автоматический список товаров для ритейлеров и покупателей
Figure 1. Как фотография полок, сделанная на телефон, может превратиться в автоматический список товаров для ритейлеров и покупателей

Почему полки сложны для компьютеров

На первый взгляд обучение компьютера видеть товары может показаться простым: достаточно показать множество фотографий каждого предмета. На деле сцены в супермаркетах хаотичны. Товары появляются в разных размерах — от крупного плана в руке покупателя до дальних планов с камер наблюдения. Упаковки похожи друг на друга и отличаются мелкими деталями, иногда они частично скрыты за соседями. Освещение меняется, полки переставляют, а бренды различаются в зависимости от региона. Существующие коллекции изображений для исследований часто игнорируют эти сложности: в них небольшое число товаров, контролируемое освещение или только крупные планы. Это затрудняет разработку систем, которые действительно работают в реальных магазинах.

Новая реалистичная коллекция изображений продуктовых полок

Чтобы устранить этот разрыв, авторы создали новую коллекцию изображений Grocer-Help. Она содержит 13 771 снимок примерно 4 000 различных продуктовых наименований, сгруппированных в 349 классов по брендам. Изображения получены в восьми магазинах в пяти индийских штатах и сняты на шесть типов мобильных камер. Сцены варьируются от крупного плана нескольких предметов до общих видов целых проходов, и включают повседневные особенности: блики, смазанные кадры, захламлённые фоны и частично закрытые этикетки. Каждый товар на изображении аккуратно отмечен рамкой, в сумме это более 166 000 аннотированных объектов. Набор данных разделён на три основных типа изображений: крупные планы, дальние виды и чистые фотографии из онлайн-каталогов, что позволяет исследователям изучать, как расстояние и стиль съёмки влияют на распознавание.

Компактная модель, которая видит на многих масштабах

Параллельно с набором данных авторы предлагают компактную модель обнаружения, спроектированную для работы с товарами разных размеров в одной сцене. Вместо того чтобы обрабатывать мелкие и крупные объекты отдельно, модель использует специальный блок, который собирает визуальные подсказки одновременно на нескольких масштабах. Затем эти подсказки складываются в «пирамиду» карт признаков, где каждый слой фокусируется на своём уровне детализации. Это помогает системе прослеживать товары от далёких видов полок до тонких отличий между схожими упаковками. Модель также оптимизирована для эффективности: в ней применяются более лёгкие операции, чтобы она могла работать на устройствах с ограничённой вычислительной мощностью, что делает её более пригодной для использования в магазинах или на потребительском оборудовании.

Figure 2. Как модель компьютерного зрения объединяет детали на разных масштабах, чтобы выделять прямоугольники вокруг товаров на переполненных полках
Figure 2. Как модель компьютерного зрения объединяет детали на разных масштабах, чтобы выделять прямоугольники вокруг товаров на переполненных полках

Тестирование на разных наборах данных, в разных магазинах и с разных расстояний

Исследователи сравнили свою модель с популярными системами обнаружения объектов, такими как различные версии YOLO и RetinaNet, на нескольких существующих продуктовых наборах данных и на Grocer-Help. На новом наборе модель демонстрирует уверенные результаты по обнаружению товаров, при этом использует меньше параметров, чем многие конкуренты. Она показывает особенно хорошую точность и полноту — то есть умеет и избегать ложных срабатываний, и не пропускать объекты, хотя иногда её рамки оказываются менее плотными при очень строгих правилах перекрытия. Подробные испытания показывают, что производительность зависит от способа съёмки: крупные планы распознаются проще, дальние виды полок — сложнее, а включение в обучение фотографий из онлайн-каталогов может ухудшать результаты из‑за сильной разницы с реальными сценами магазина. Сравнения между магазинами также показывают, что опрятные полки и коробочная упаковка помогают детектору.

Что это значит для повседневной торговли

Проще говоря, эта работа демонстрирует путь от простого сканирования штрихкодов к системам на основе камеры, которые «видят» переполненные полки. Предложив большой реалистичный набор данных и эффективную модель, способную работать с товарами на разных масштабах и под разными углами, исследование создаёт основу для практичных инструментов: автоматических проверок запасов, формирования каталогов по полкам и более умных мобильных приложений для покупок. Хотя остаются проблемы — особенно на плотных полках и для товаров, которые редко встречаются в обучении — Grocer-Help и омнимасштабная модель приближают автоматическое распознавание товаров к повседневному использованию в реальном ритейле.

Цитирование: Sah, M., Mathew, J. & Dayananda, P. A real-world framework for automated product recognition and catalog generation: dataset, model, and analysis. Sci Rep 16, 14834 (2026). https://doi.org/10.1038/s41598-026-42266-9

Ключевые слова: распознавание товаров в магазине, обнаружение объектов, компьютерное зрение в ритейле, эталонный набор данных, автоматизация учёта