Clear Sky Science · ru

Интеллектуальное распознавание узоров на вышитых мешочках: сравнение серий YOLO и RT-DETR

· Назад к списку

Почему старые вышитые мешочки важны сегодня

По всей Китаю маленькие вышитые мешочки когда‑то носили с травами, оберегами и пожеланиями удачи. Сегодня многие из них сохранились лишь в музейных ящиках и частных коллекциях. Каждая крошечная стежка — цветок или дракон — несёт в себе истории о верованиях, моде и повседневной жизни. Однако оцифровка и каталогизация этих богато украшенных предметов вручную идёт крайне медленно. В этом исследовании изучают, как современные методы искусственного интеллекта могут автоматически распознавать узоры на таких мешочках, помогая музеям и сообществам сохранять важную нить нематериального культурного наследия в цифровую эпоху.

Figure 1
Figure 1.

От руки и глаза к интеллектуальному распознаванию

Традиционно эксперты определяли рисунки на мешочках, внимательно изучая фотографии и обращаясь к справочникам. Такой подход не масштабируется на десятки тысяч предметов, разбросанных по архивам. Исследователи вместо этого собрали специализированную коллекцию изображений из 783 вышитых мешочков, взятых из книг и цифрового архива крупного музея. Они выделили восемь распространённых категорий мотивов — включая растения и цветы, птиц и зверей, насекомых и водную фауну, пейзажи и здания, символы и персонажи, сцены с фигурами и сюжетами, предметы и антиквариат, а также геометрические узоры — и аккуратно обвели рамками каждый узор на каждом изображении. Чтобы противостоять малому объёму данных, изображения цифровым образом переворачивали, поворачивали, делали светлее и темнее, а также размывали, увеличивая обучающий набор более чем в четыре раза и проверяя метки с помощью программного обеспечения и экспертов по культурному наследию.

Проверка популярных инструментов ИИ

С этой кураторской выборкой в руках команда сравнила две семейства систем обнаружения объектов. Одно семейство, известное как YOLO, широко используется для быстрых задач, таких как обнаружение пешеходов или автомобилей в видео. Эти модели просматривают изображение за один проход и сильно опираются на локальные фрагменты. Другое, более новое решение — RT-DETR — сочетает традиционные свёрточные фильтры с вниманием в стиле трансформера, что позволяет связывать крошечные стежки с общей сценой. Авторы сначала настроили несколько вариантов YOLO и выбрали YOLOv5m в качестве сильного базового уровня. Он показал разумные результаты в некоторых категориях — особенно в сложных повествовательных сценах, объединённых в «Фигуры и сюжеты» — но испытывал трудности, когда мотивы были мелкими, сильно перекрывались или сливались с фоном. В таких случаях цветы могли исчезать, геометрические рамки неправильно интерпретировались, а части изображения ошибочно помечались как пустой фон.

Как гибридный трансформер видит стежки

Затем исследователи сосредоточились на усовершенствовании RT-DETR для этой нетипичной визуальной задачи. Они заменили стандартный бэкбон моделью ConvNeXt-Large — современной свёрточной сетью, рассчитанной на захват тонкой текстуры при сохранении глобального контекста. Также они применили стратегию обучения под названием Focal Loss, которая заставляет модель уделять больше внимания сложным, легко путаемым примерам, вместо того чтобы полагаться на простые. Внутри RT-DETR признаки изображения мешочка извлекаются на нескольких масштабах и объединяются, а механизм внимания связывает удалённые, но связанные участки, например пары животных или повторяющиеся бордюры. Благодаря тщательным исследованиям по исключению компонентов (ablation) и пошаговой настройке расписаний обучения и регуляризации авторы пришли к оптимизированной конфигурации, которая уравновешивает точность и стабильность при множественных прогонках обучения.

Figure 2
Figure 2.

Чего на самом деле добилась улучшенная система

По стандартным метрикам обнаружения объектов усовершенствованный RT-DETR явно превзошёл модели YOLO. Его основная метрика точности mAP@0.5 достигла 0.5433 — примерно на 33% выше по сравнению с базовым YOLOv5m — при статистических показателях, указывающих, что этот прирост вряд ли случаен. Система особенно хорошо справилась со сложными повествовательными сценами, достигнув средней точности 0.833 для категории «Фигуры и сюжеты», и восстановила многие мотивы, которые YOLO упустил, особенно в редких или слабо представленных категориях, таких как пейзажи и геометрические бордюры. Она также показала большую согласованность в повторных экспериментах, что указывает на надёжное поведение, а не хрупкое переобучение на одной разметке. Платой за это стал размер: лучшая модель RT-DETR значительно больше и тяжелее своих YOLO‑аналогов, что может ограничить её развёртывание на лёгких устройствах.

Что это означает для культурного наследия

Для неспециалистов ключевое сообщение заключается в том, что компьютеры учатся не только находить машины и лица, но и «читать» язык традиционного ремесла. Показав, что детектор на основе трансформера, тщательно адаптированный и обученный, может точнее выделять плотные, перекрывающиеся вышитые мотивы, чем популярные модели в реальном времени, эта работа устанавливает ориентир для будущих инструментов. Музеи и культурные учреждения в перспективе смогут использовать такие системы для поиска по большим фотоколлекциям по мотивам, отслеживания эволюции символов или помощи ремесленникам в возрождении старых узоров. Авторы подчёркивают, что точность пока умеренная и требуются дальнейшие доработки — в том числе облегчённые модели и добавление культурного контекста и текстовых описаний — прежде чем возможна крупномасштабная эксплуатация. Тем не менее исследование обозначает важный шаг к интеллектуальному и уважительному цифровому хранению наследия вышитых мешочков.

Цитирование: Yang, H., Sui, Q., Xie, H. et al. Intelligent recognition of embroidered purse patterns: comparing YOLO series and RT-DETR. npj Herit. Sci. 14, 251 (2026). https://doi.org/10.1038/s40494-026-02518-3

Ключевые слова: распознавание узоров вышивки, нематериальное культурное наследие, обнаружение объектов, видение на основе трансформеров, цифровое сохранение