Clear Sky Science · zh
使用残差视觉变换器从手写绘图测试中检测轻度认知障碍
为何简单的图画能揭示隐藏的记忆问题
想象一下,医生只需看你如何画时钟、立方体或一串相连的圆,就能发现痴呆的早期预警信号。这些快速的草图已在临床中使用,但通常需要人工评分并高度依赖医生的判断。本文展示了一种称为 ResViT 的人工智能(AI)系统如何自动“解读”这些绘图,将笔迹转化为对轻度认知障碍(MCI)的早期警示。MCI 位于正常老化与痴呆之间,干预和规划仍能发挥重要作用。
从纸笔测试到智能筛查
轻度认知障碍常首先在需要计划、注意力和空间感的日常任务中显现——这正是绘图测试旨在检测的内容。医生通常要求患者画出显示特定时间的时钟、复制一个三维立方体,或按顺序连接分散的数字和字母。过去,每幅画都要人工评判,过程既缓慢又因医生不同而存在变异。作者们着手构建一个更客观的系统,综合分析三种绘图,借助计算机发现即便是训练有素的目光也可能漏掉的模式。他们的目标不是取代医生,而是为医生提供快速且一致的第二意见。

融合两种视觉策略:局部细节与整体格局
研究的核心是一个混合 AI 模型 ResViT,旨在结合两种互补的图像分析方式。一部分基于被称为 ResNet 的技术,擅长捕捉细小特征,如边缘、角点以及图画线条中的微小畸变;另一部分则是视觉变换器(Vision Transformer),擅长理解整体布局——时钟、立方体或路径在页面上的整体关系。系统不是将绘图串行地通过这些组件,而是并行运行,然后将两条信息流融合成对个体认知状态的更丰富表征。
系统如何从真实患者绘图中学习
为检验他们的想法,研究者使用了一个包含 918 人绘图的公开数据集,这些人都完成了时钟、立方体和连线任务。每位受试者的认知状态已通过标准临床测试判定,作为“健康”或“MCI”的真实标签。团队将绘图转换为灰度图像、调整大小,并采用旋转和亮度变化等简单增强方法以提高模型的鲁棒性。训练过程中,ResViT 反复将其预测与已知标签比较并调整内部参数,并采用早停和 dropout 等措施以防止对训练数据记忆化而非学习通用规则。
效果如何以及揭示了什么
在对未见过的人群进行评估时,ResViT 能将健康个体与 MCI 患者正确区分约四分之三,准确率为 74.09%,平衡 F1 值约为 0.67。这优于若干强有力的替代方法,包括仅使用 ResNet、仅使用视觉变换器或另一种流行网络 EfficientNet 的版本。该混合方法的内部参数量约为大型独立变换器的三分之一左右,在对疾病敏感性与避免误报之间取得了良好平衡。通过热图可视化,作者还表明模型倾向于关注具有临床意义的区域——例如时钟数字、立方体边缘和连线中的分叉点——这表明它关注的线索与人类专家类似。

当下的局限与未来的可能
作者强调,该系统尚不能作为通用筛查工具。数据集规模有限、以老年人为主且缺乏诸如教育水平和文化差异等重要背景信息,这些因素都会影响绘图方式。该模型对低功耗设备也可能计算负担较大。尽管如此,由于 ResViT 可用相对少量新样本进行适配,随着更多数据的获取,它可以扩展到其他认知障碍或新的绘图任务。整合更大且更多样化的数据集,并构建更精简的模型,将是迈向日常应用的关键步骤。
这对患者与家庭意味着什么
简言之,这项工作表明,经过精心设计的 AI 能将简单的纸笔草图转化为一个实用工具,用于捕捉记忆和思维问题的早期迹象。尽管 74% 的准确率并非完美,但对于一种廉价、快速且易于重复的第一道防线而言,这是有希望的。未来,门诊扫描的绘图或家庭平板上的输入,可能在日常生活明显受损前悄然标记出细微变化,给医生和家庭更多时间采取应对措施。像 ResViT 这样的系统不是取代人工判断,而是使判断更一致、更及时,为有痴呆风险的人提供更早的帮助。
引用: Sirshar, M., Matloob, I., Tayyabah, A. et al. MCI detection from handwritten drawing test using residual vision transformer. Sci Rep 16, 10334 (2026). https://doi.org/10.1038/s41598-026-40716-y
关键词: 轻度认知障碍, 绘图测试, 深度学习, 视觉变换器, 早期痴呆检测