Clear Sky Science · ru

Распознавание изображений культурного наследия на основе квантовой и классической мультимодальной сети слияния

2026-03-17 · Назад к списку

Почему важно обучать компьютеры древним сокровищам

Культурные ценности в музеях и архивах все чаще фотографируют и размещают онлайн, но большинство таких изображений либо плохо промаркировано, либо вовсе не снабжено метаданными. Это затрудняет посетителям, преподавателям и исследователям поиск нужного и ограничивает глубину общественного изучения общего человеческого наследия. В статье рассматривается новый подход к автоматическому распознаванию и сортировке подобных изображений, который объединяет две редко пересекающиеся области: музейные коллекции и квантовые вычисления.

От пыльных хранилищ к цифровым коллекциям

Сегодня в музеях хранится миллионы предметов — от бронзы и лаковой посуды до вышитых одежд. Многие учреждения стремятся оцифровать фонды, чтобы любой с доступом в интернет мог их просматривать. Но после публикации изображений их нужно правильно классифицировать — например: эмаль, нефрит, шелк или парча — чтобы они стали действительно полезны. Традиционные инструменты искусственного интеллекта обычно анализируют только пиксели изображения. Они игнорируют богатые текстовые описания, которые кураторы и историки прилагают к объектам, хотя эти подписи часто содержат указания на материалы, цвета и орнаменты, не всегда очевидные визуально. По мере роста коллекций классические алгоритмы также испытывают трудности со скоростью, энергопотреблением и сложностью.

Сопоставление изображений со словами и битов с кьюбитами

Авторы предлагают модель, которую называют Квантово-Классической Мультимодальной Моделью Слияния. «Мультимодальная» здесь означает, что модель учитывает более одного вида информации одновременно — в данном случае и изображение артефакта, и его подпись. Сначала используются проверенные инструменты, обученные на больших наборах данных: глубокая нейросеть для улавливания форм и текстур и языковая модель для извлечения смысла подписи. Особый механизм внимания затем учится сопоставлять области изображения с конкретными словами. Например, когда в подписи встречается «золотой дракон», модель учится фокусироваться на золотистых областях, имеющих драконоподобную форму. В результате получается объединенное представление, сочетающее зрительную и текстовую информацию.

Позволяя квантовым схемам смешивать сигналы

После извлечения признаков изображения и текста модель подаёт их в небольшую смоделированную квантовую схему. Поскольку современное квантовое оборудование располагает лишь ограниченным числом кьюбитов, авторы сжимают информацию с помощью схемы, которая упаковывает множество классических значений в амплитуды нескольких кьюбитов. Внутри квантовой части они проектируют двухэтапную схему, которая многократно применяет вращения к отдельным кьюбитам, а затем запутывает их — делая состояния взаимозависимыми. Такая структура призвана выявлять тонкие взаимосвязи между визуальными паттернами и подсказками в подписи, которые иначе могли бы остаться незамеченными. После квантовой обработки состояние кьюбитов измеряется и преобразуется обратно в обычные численные представления, которые затем передаются в финальный классификатор для предсказания категории объекта.

Проверка нового подхода

Чтобы выяснить, даёт ли предложенный метод реальные преимущества, исследователи собрали два новых набора данных из коллекций Запретного города: один — с физическими артефактами, такими как эмаль, золотые и серебряные изделия, лак, бронза и нефрит, и другой — сосредоточенный на текстиле: шелк, сатин, парча и сложная техника ткачества, известная как кесэ. Каждое изображение снабжено официальной подписью и проверенной меткой из музейных записей. Авторы сравнили свою квантово-классическую модель с рядом сильных соперников, включая чисто визуальные системы, чисто текстовые системы и другие методы комбинирования обоих типов данных. В обоих наборах данных новая модель показала наивысшие показатели точности и смежных метрик, превосходя даже продвинутые мультимодальные и квантово-вдохновленные базовые варианты. Дополнительные эксперименты показали, как её производительность зависит от числа кьюбитов и глубины схемы, а также что модель остается устойчивой даже при введении типичных типов квантового шума в симуляции.

Что это может означать для будущих посетителей музеев

Для неспециалистов главный вывод в том, что сочетание изображений, текстов и квантово-вдохновлённой обработки может сделать компьютеры лучше в различении разных типов культурных объектов. Хотя квантовые компоненты пока выполняют на симуляторах, а не на полноценных квантовых машинах, исследование указывает путь к созданию более эффективных и выразительных инструментов по мере развития аппаратуры. На практике такие системы могли бы помогать музеям и архивам автоматически сортировать новые загрузки, очищать устаревшие записи и облегчать поиск по запросам вроде «ритуальные сосуды из нефрита» или «вышитые мантию с драконом», действительно позволяя их находить. Работа намекает на то, что квантовые вычисления могут стать полезным новым направлением для понимания и сохранения культурного наследия в цифровую эру.

Цитирование: Fan, T., Wang, H., Zhao, Y. et al. Multimodal cultural heritage image recognition based on quantum and classical multimodal fusion network. npj Herit. Sci. 14, 160 (2026). https://doi.org/10.1038/s40494-026-02419-5

Ключевые слова: изображения культурного наследия, квантовое машинное обучение, мультимодальное слияние, оцифровка музеев, распознавание изображений