Clear Sky Science · ru

Новая квантовая сверточная нейронная сеть для квантово-улучшенной классификации пикселизированных цветных изображений

· Назад к списку

Увидеть больше в размытых картинках

Современная жизнь основана на изображениях — от медицинских снимков и спутниковых фотографий до эмодзи и спрайтов в видеоиграх. Но по мере роста объемов таких коллекций компьютеры, которые их анализируют, сталкиваются с дилеммой: большие, сложные модели требуют огромных наборов данных и много энергии, тогда как в реальных задачах часто доступны лишь крошечные, низкорезолюционные изображения и немного примеров. В этой работе исследуется, могут ли странные законы квантовой физики помочь компьютерам надежнее выявлять паттерны в таких малых и шумных изображениях по сравнению с современными стандартными инструментами.

Figure 1
Figure 1.

Почему крошечные изображения — большая проблема

Классические сверточные нейронные сети (CNN) преобразили распознавание изображений, просматривая картины малыми фильтрами и обучаясь нескольким уровням признаков. Они отлично работают с большими, детализированными изображениями и массивными наборами данных, такими как фотографии в сети. Однако в многих практических сценариях — встроенные сенсоры, недорогие камеры, дистанционное зондирование или значки — доступны только маленькие изображения 4×4 или 8×8 пикселей, зачастую в ограниченном количестве. В этой ситуации стандартные CNN склонны к переобучению: они запоминают обучающие примеры вместо того, чтобы выучить общие правила, что приводит к высокой точности на известных изображениях, но плохой работе на новых.

Привнесение квантовой физики в визуальные задачи

Авторы предлагают Novel Quantum Convolutional Neural Network (No-QCNN), гибридную модель, использующую как классический компьютер, так и симулированное квантовое устройство. Суть идеи в представлении каждого крошечного цветного изображения как набора квантовых битов (кубитов). Вместо прямой подачи значений пикселей в сеть метод сначала преобразует интенсивности красного, зелёного и синего каналов и позицию пикселя в компактный трёхмерный блок данных. Этот блок кодируется в квантовое состояние с помощью тщательно подобранных вращений и операций запутывания между парами кубитов. Поскольку кубиты могут находиться в суперпозициях и стать запутанными, одно квантовое состояние в принципе может одновременно представлять множество комбинаций цветов и позиций пикселей, улавливая тонкие корреляции без очень глубоких сетей.

Как квантовая сеть обрабатывает изображения

После того как изображение сохранено в кубитах, No-QCNN обрабатывает его через последовательность операций, напоминающую классические CNN, но выполняемую полностью в квантовой схеме. Пары кубитов проходят через небольшие повторяющиеся блоки трансформаций, которые действуют как квантовые аналоги свёрточных фильтров, смешивая информацию из соседних «позиций» изображения. После каждого такого квантового «свёрточного» шага происходит квантовая операция пуллинга, уменьшающая эффективное число кубитов, сворачивая информацию двух кубитов в один. Слой за слоем схема сжимается до нескольких кубитов, результаты измерений которых интерпретируются с помощью классической постобработки как предсказанный класс — например, горизонтальная или вертикальная линия и её цвет. Параметры этих квантовых операций автоматически настраиваются с помощью классического оптимизатора, рассматривающего всю систему как обучаемую модель.

Figure 2
Figure 2.

Сравнение квантового и классического подходов

Чтобы оценить эффективность No-QCNN, исследователи создали простые, но информативные наборы изображений. В базовой задаче каждое изображение 4×4 содержало либо горизонтальную, либо вертикальную яркую линию на шумном фоне — двоичная классификация. В более сложной задаче 8×8 изображения содержали линию, которая могла быть горизонтальной или вертикальной и окрашенной в красный, зелёный или синий — всего шесть комбинаций. Для корректности сравнения квантовая модель запускалась на бесшумном симуляторе и сопоставлялась с компактной классической CNN сопоставимой сложности. В двоичной задаче классическая CNN показала идеальную точность на валидации, в то время как No-QCNN достиг примерно 90%, что показывает: для простых задач с явной структурой традиционный подход всё ещё имеет преимущество. Однако в более богатой шестиклассовой задаче с лишь 50 изображениями картина изменилась: No-QCNN достигла валидационной точности около 82%, тогда как классическая CNN упала до 40% — признак сильного переобучения.

Где квантовое зрение помогает больше всего

Эксперименты показали и перспективы, и ограничения. С увеличением размера набора данных и времени обучения производительность No-QCNN постепенно снижалась. Фиксированное число кубитов и неглубокая глубина схемы означали, что модели было сложно усвоить больше данных, а многократная выборка квантовых состояний вносила шум в процесс обучения. Тем не менее на небольших наборах данных с богатой корреляционной структурой — особенно в шестиклассовой задаче с очень малым числом примеров на класс — квантовая модель обобщала лучше классической CNN. Проще говоря, квантовая схема сопротивлялась соблазну запомнить обучающие изображения и вместо этого выучивала правило, которое надёжнее переносилось на новые примеры.

Что это значит для будущего

Для неспециалиста основной вывод таков: квантовые версии нейронных сетей не являются универсальными ускорителями для всех задач обработки изображений и не готовы заменить современные глубокие сети повсеместно. Скорее, исследование выделяет реалистичную нишу, где квантовое оборудование может сыграть роль в первую очередь: крошечные задачи с малым объёмом данных, где паттерны тонкие, а классические модели легко переобучаются. No-QCNN показывает, что даже на современных ранних, шумных квантовых платформах (смоделированных здесь) тщательно спроектированные квантовые схемы могут конкурировать с классическими CNN и иногда превосходить их в обобщении, пусть и при значительно большем времени обучения. По мере того как квантовые процессоры станут мощнее и менее подвержены ошибкам, архитектуры вроде No-QCNN могут эволюционировать в практичные инструменты для специализированных визуальных задач в медицине, дистанционном зондировании и других областях.

Цитирование: Daka, C., Bhattacharyya, S. A novel quantum convolutional neural network framework for quantum-enhanced classification of pixelated colour images. Sci Rep 16, 10828 (2026). https://doi.org/10.1038/s41598-026-45140-w

Ключевые слова: квантовое машинное обучение, классификация изображений, квантовые нейронные сети, низкорезолюционные изображения, гибридные квантово-классические модели