Clear Sky Science · zh

通过与人类 EEG 表征对齐实现更像人脑的视觉

· 返回目录

这项研究为何重要

现代人工智能能够以接近人类的准确度识别照片中的物体,但它仍然不像我们的脑那样“看”世界。本研究引入了一种利用志愿者记录的脑信号来调优计算机视觉系统的新方法,使 AI 向类人视觉理解更进一步。通过将视觉模型直接塑造成与人类脑活动一致,这项工作暗示了未来的 AI 不仅更强大,而且在组织结构上更接近我们自身的思维方式。

Figure 1
Figure 1.

用脑电波教机器

作者关注一个简单但大胆的想法:与其仅用图像和标签训练视觉模型,何不同时向它们展示人脑对这些图像的反应?他们使用脑电图(EEG),测量人们观看图片时头皮上的微小电压变化。EEG 无创、相对便宜,并且可以在大量试验中快速采集。研究团队利用来自十位志愿者的一个大型开放数据集,每人观看数万张自然物体图像,同时记录在每张图片出现后前两十分之一秒内的 EEG 信号。

构建与大脑对齐的视觉网络

研究者以现有的深度视觉模型 CORnet-S 为起点,加入了一个额外的“图像到大脑”模块。当图像输入网络时,模型现在同时执行两项任务:预测图像中出现了什么物体,并尝试预测真实人类对该图像产生的 EEG 模式。为此,网络若干内部层的信号被汇入 EEG 模块,后者学习生成与人类数据相匹配的短时间序列。在训练过程中,模型在正确识别物体和产生类 EEG 活动这两方面都会获得奖励,从而推动其内部特征向与人类视觉系统更相似的方向发展。

在多种方法下更接近大脑活动

在为十位受试者各训练了一个“ReAlnet”之后,团队检验这些模型是否真的变得更像大脑。他们使用一种称为表征相似性分析的技术,比对模型内部对图像之间关系的模式与人类 EEG 中观察到的模式。在 50 到 200 毫秒之间的所有主要层和时间点上,ReAlnet 一贯比原始 CORnet-S 和其他标准模型更接近人类 EEG,峰值增益约为 6%,相对改进最高可达约 40%。重要的是,这种提升即便在训练中未使用过的新物体类别上也依然成立,表明这种对齐具有超出训练集的泛化能力。

Figure 2
Figure 2.

延伸到脑成像与行为

一个关键问题是,这些模型是否仅仅学到了 EEG 的特殊性,还是捕捉到了关于人类视觉的更一般性特征。为此,作者使用了一个独立的脑成像数据集,另一些受试者在 MRI 扫描中观看自然图像、抽象形状和字母。尽管 ReAlnet 从未见过这些数据,它们的内部模式仍比原始模型更接近若干视觉脑区的信号。此外,EEG 与 MRI 的改进程度在模型之间高度相关,暗示共享的核心表征被强化。研究者还评估了模型与人类在高难度物体识别任务中犯相似错误的频率。在这方面,ReAlnet 同样比基线模型更符合人类行为。

个性化且具通用性的类脑视觉

由于每个 ReAlnet 都针对一位个体的 EEG 进行了调优,作者得以探究个体差异。他们发现个性化模型在更深层的分歧更大,这与人们在从早期到高级视觉脑区差异逐渐扩大的现象一致。尽管如此,每个人的模型在泛化到其他人的 EEG 时,仍优于未对齐的基线模型,表明它们同时捕捉到了共享与个体特异的结构。团队还将框架扩展到另一种架构 ResNet18,EEG、MRI(以及在较小程度上行为)的一致性再次得到改善,表明该方法具有灵活性,而非依赖单一模型设计。

对日常理解的意义

对非专业读者而言,核心结论是:现在可以直接利用非侵入性的人脑记录来调优视觉算法。由此产生的 ReAlnet 不只是识别物体;它们在信息组织方式上更接近我们自己的视觉通路,体现在电学脑信号、MRI 扫描,甚至识别任务中的错误模式上。尽管改进幅度有限且仍有许多技术挑战需克服,这项工作为朝向内部运作受人脑塑造的 AI 系统迈出了一步,未来可能带来更健壮、可解释并适合个体的技术。

引用: Lu, Z., Wang, Y. & Golomb, J.D. Achieving more human brain-like vision via human EEG representational alignment. Commun Biol 9, 463 (2026). https://doi.org/10.1038/s42003-026-09685-w

关键词: 与大脑对齐的人工智能, EEG 视觉, 物体识别, 计算神经科学, 类人感知