Clear Sky Science · zh

使用残差视觉变换器从手写绘图测试中检测轻度认知障碍

2026-02-24 · 返回目录

为何简单的图画能揭示隐藏的记忆问题

想象一下，医生只需看你如何画时钟、立方体或一串相连的圆，就能发现痴呆的早期预警信号。这些快速的草图已在临床中使用，但通常需要人工评分并高度依赖医生的判断。本文展示了一种称为 ResViT 的人工智能（AI）系统如何自动“解读”这些绘图，将笔迹转化为对轻度认知障碍（MCI）的早期警示。MCI 位于正常老化与痴呆之间，干预和规划仍能发挥重要作用。

从纸笔测试到智能筛查

轻度认知障碍常首先在需要计划、注意力和空间感的日常任务中显现——这正是绘图测试旨在检测的内容。医生通常要求患者画出显示特定时间的时钟、复制一个三维立方体，或按顺序连接分散的数字和字母。过去，每幅画都要人工评判，过程既缓慢又因医生不同而存在变异。作者们着手构建一个更客观的系统，综合分析三种绘图，借助计算机发现即便是训练有素的目光也可能漏掉的模式。他们的目标不是取代医生，而是为医生提供快速且一致的第二意见。

融合两种视觉策略：局部细节与整体格局

研究的核心是一个混合 AI 模型 ResViT，旨在结合两种互补的图像分析方式。一部分基于被称为 ResNet 的技术，擅长捕捉细小特征，如边缘、角点以及图画线条中的微小畸变；另一部分则是视觉变换器（Vision Transformer），擅长理解整体布局——时钟、立方体或路径在页面上的整体关系。系统不是将绘图串行地通过这些组件，而是并行运行，然后将两条信息流融合成对个体认知状态的更丰富表征。

系统如何从真实患者绘图中学习

为检验他们的想法，研究者使用了一个包含 918 人绘图的公开数据集，这些人都完成了时钟、立方体和连线任务。每位受试者的认知状态已通过标准临床测试判定，作为“健康”或“MCI”的真实标签。团队将绘图转换为灰度图像、调整大小，并采用旋转和亮度变化等简单增强方法以提高模型的鲁棒性。训练过程中，ResViT 反复将其预测与已知标签比较并调整内部参数，并采用早停和 dropout 等措施以防止对训练数据记忆化而非学习通用规则。

效果如何以及揭示了什么

在对未见过的人群进行评估时，ResViT 能将健康个体与 MCI 患者正确区分约四分之三，准确率为 74.09%，平衡 F1 值约为 0.67。这优于若干强有力的替代方法，包括仅使用 ResNet、仅使用视觉变换器或另一种流行网络 EfficientNet 的版本。该混合方法的内部参数量约为大型独立变换器的三分之一左右，在对疾病敏感性与避免误报之间取得了良好平衡。通过热图可视化，作者还表明模型倾向于关注具有临床意义的区域——例如时钟数字、立方体边缘和连线中的分叉点——这表明它关注的线索与人类专家类似。

当下的局限与未来的可能

作者强调，该系统尚不能作为通用筛查工具。数据集规模有限、以老年人为主且缺乏诸如教育水平和文化差异等重要背景信息，这些因素都会影响绘图方式。该模型对低功耗设备也可能计算负担较大。尽管如此，由于 ResViT 可用相对少量新样本进行适配，随着更多数据的获取，它可以扩展到其他认知障碍或新的绘图任务。整合更大且更多样化的数据集，并构建更精简的模型，将是迈向日常应用的关键步骤。

这对患者与家庭意味着什么

简言之，这项工作表明，经过精心设计的 AI 能将简单的纸笔草图转化为一个实用工具，用于捕捉记忆和思维问题的早期迹象。尽管 74% 的准确率并非完美，但对于一种廉价、快速且易于重复的第一道防线而言，这是有希望的。未来，门诊扫描的绘图或家庭平板上的输入，可能在日常生活明显受损前悄然标记出细微变化，给医生和家庭更多时间采取应对措施。像 ResViT 这样的系统不是取代人工判断，而是使判断更一致、更及时，为有痴呆风险的人提供更早的帮助。

引用: Sirshar, M., Matloob, I., Tayyabah, A. et al. MCI detection from handwritten drawing test using residual vision transformer. Sci Rep 16, 10334 (2026). https://doi.org/10.1038/s41598-026-40716-y

关键词: 轻度认知障碍, 绘图测试, 深度学习, 视觉变换器, 早期痴呆检测