Clear Sky Science · zh

使用混合量子卷积神经网络和眼底图像识别多种眼病

2026-01-31 · 返回目录

更精确的视力筛查，来自更智能的机器

如果能及早发现眼病，世界上许多视力问题是可以避免的，但专家和高质量影像并不总是可得。本研究探索了一种读取眼底照片的新方法，结合了前沿的量子计算思想与现代人工智能。目标简单却有力：快速且可靠地同时识别多种常见眼病，从而使挽救视力的治疗能更早开始。

为什么眼球后部很重要

视网膜是位于眼球后部的一层薄组织，将光转化为传给大脑的信号。许多严重的眼疾会在这里留下明显的痕迹，包括老年性黄斑变性、青光眼、糖尿病性视网膜病变、高血压相关损伤、近视和白内障。医生可以用标准的眼底相机拍摄视网膜图像，这种设备比先进扫描仪更便宜也更普及。但人工阅片速度慢，依赖高度训练的专家，并且在早期病变较为隐匿或多种问题并存时尤其困难。

在诊断前先整理图像

在任何计算机能理解眼底照片之前，图像必须被清理和标准化。在这项工作中，作者首先裁剪出圆形的眼底区域、调整尺寸，然后用两种技术提升重要结构的可见性：各向异性扩散滤波以在不模糊关键边缘的情况下降低噪声，以及小波变换以增强对比。他们还通过旋转、缩放、平移和翻转图像并加入受控噪声来扩充训练集。这种细致的“图像整理”帮助模型学习真实世界照片的变化，降低在稍有不同的相机或光照条件下失败的风险。

将经典 AI 与量子思想混合

研究的核心是一种混合量子卷积神经网络（QCNN）。传统卷积神经网络在识别图像中的线条、纹理和形状等模式方面非常擅长。QCNN 保留了这种熟悉的结构，但加入了对以量子态编码的数据起作用的量子型层。从实际角度看，一个轻量级的经典网络首先压缩每对来自患者左右眼的图像。这些特征随后被映射为八个“量子比特”表示，特定的量子门对其进行旋转并在量子比特之间建立连接。这使系统能够用相对较少的可调参数探索非常丰富的可能模式空间。

量子层如何学习

模型的量子部分模仿了图像分析中的已知步骤。量子“卷积”层像滤波器一样扫描数据中的有用结构，而量子“池化”层通过合并多个量子比特的信息来降低复杂性，同时保留最重要的线索。系统反复测量得到的量子态，并将这些测量值输入最终的决策层，输出每种眼病标签的可能性。在训练过程中，经典优化器同时调整常规神经网络权重和量子门设置，以提升性能，评价指标包括准确率、精确率、召回率和 F1 分数。

对模型的检验

为了验证该方法是否超越概念性的优雅，研究人员在 OIA‑ODIR 数据集上进行了训练和测试，该公开数据集包含来自 5,000 名患者的 10,000 张眼底图像，标注了七种眼病以及正常眼。数据被划分为用于训练、用于调参以及用于测试的集合，测试集既包括来自相同站点的图像，也包括外部站点的图像，以考察泛化能力。与几种强大的深度学习系统相比，包括 Fundus‑DeepNet、Inception‑v4、VGG16 和 ResNet‑101，QCNN 表现最佳。它在现场和异地测试集中都达到了约 94% 的准确率，并且精确率、召回率和 F1 分数同样很高，意味着它不仅经常做出正确判断，而且少有漏诊。

这对患者意味着什么

从通俗角度看，这表明更智能的软件可以通过让大规模视网膜筛查更快、更一致，并能同时标记多种疾病，从而帮助保护视力。这里描述的量子增强网络目前仍在模拟器上运行并依赖高性能计算机，因此尚未准备好用于常规临床。它也继承了医学 AI 常见的局限，如罕见病数据不平衡和不同医院间的差异。尽管如此，其强劲的表现表明将经典方法与量子启发的方法结合，能够从相同的眼底照片中挖掘出更多信息。随着量子硬件的成熟和数据集的扩大，此类系统有望成为支持全球眼科医生的实用工具，尤其在专家稀缺的地区。

引用: Alqassab, A.I.M., Luque-Nieto, MÁ. & Mohammed, M.A. Identification of multiple ocular diseases using a hybrid quantum convolutional neural network with fundus images. Sci Rep 16, 6798 (2026). https://doi.org/10.1038/s41598-026-38063-z

关键词: 视网膜眼底成像, 眼病检测, 量子神经网络, 医学图像分析, 眼科中的人工智能