Clear Sky Science · zh
神经元调谐在视觉层级中随物体与纹理流形动态对齐
大脑如何看见超越“物体”的事物
当你扫视一条繁忙的街道时,大脑会从汽车、面孔、树叶和阴影的混杂中瞬间提取意义。但单个神经细胞并不只是对“汽车”或“面孔”这样整齐的类别产生反应。它们往往对许多无关的图像都有反应,这让科学家们对这些细胞真正关心的是什么感到困惑。本研究使用先进的图像生成式人工智能,让单个神经元“设计”它们最喜欢的图像,从而揭示大脑如何在对细节纹理的敏感性与对整体物体的识别之间取得平衡。
两种不同的视觉世界
研究人员使用了两种功能强大的图像生成器,每种生成器都有不同的视觉“口音”。一种名为 DeePSim,尤其擅长产生丰富的纹理和图案,但其图像常常缺乏清晰可识别的物体。另一种 BigGAN,经过训练能够生成锐利、接近照片的画面,充满动物和工具等明确的物体。通过将这些生成器视为划分可能图像空间的替代方式,团队可以探讨神经元是否更贴合以纹理为中心的视角,或以物体为中心的视角。
让神经元自己挑选图像
在猕猴中,科学家记录了沿腹侧视觉通路的神经元活动——这一通路是一系列将原始视觉转化为物体识别的脑区。他们关注三个站点:V1(早期视觉皮层)、V4(中间区域)和 PIT(后下颞皮层,高级区域)。在实验过程中,每个神经元的放电率引导对每个生成器图像空间的闭环搜索。在快速的序列中,神经元被展示合成图像;触发更多尖峰放电的图像会在下一轮中推动生成器朝类似的图像方向调整。经过多代演化,这种“进化”在纹理空间和物体空间都产生了强烈激活的图像。
隐藏的局部特征,而非仅仅整体物体
令人惊讶的是,当神经元在以纹理为中心的空间和以物体为中心的空间中分别优化图像时,最终图像在整体上常常看起来不同,但在相似位置上共享特定的局部基元——例如弯曲的边缘或有色斑块。使用深度神经网络的分析证实,这些成对图像在特征空间中比为不同神经元优化的图像更为相似。空间图显示,神经元的活动最好由图像中特定区域预测,这表明许多细胞响应的是可以出现在非常不同场景中的可重复局部构件,而不是单一的、僵化的物体模板。
从纹理到物体的平衡转移
团队随后探究了每个脑区的神经元在每种图像空间中多容易“攀升”到强烈响应。在早期区域 V1 和 V4 中,纹理空间的优化更常成功、上升更快且达到的峰值响应高于物体空间,显示出明显的纹理偏向。然而在 PIT 中,神经元在两种空间中表现良好:它们可以被类纹理或类物体的合成图像强烈驱动,优化速度也变得可比。观察响应时序又提供了另一个细节:在 PIT 中,基于纹理的图像倾向于增强早期响应,而基于物体的图像更强烈地激发后期、持续的放电,这提示物体导向的处理随时间更慢地出现。
物体空间中的偏好图谱
为了探查这些偏好的细致形状,研究人员在物体生成器的潜在空间中进行了“黑塞调谐”实验。在神经元对某个优化出的类物体图像达到强烈响应后,他们系统地沿该点周围的多条方向采样图像。当优化确实找到一个高峰时,神经元的放电通常沿这些方向呈钟形曲线,随着图像远离首选图像先上升然后下降。若优化未达到强峰,调谐曲线往往更像斜坡。这表明神经元看起来是有狭窄偏好还是渐进偏好,可能取决于我们在庞大的可能图像空间中搜索得有多彻底。
这对理解视觉意味着什么
总体而言,这项研究描绘了腹侧视觉通路作为一个灵活系统的图景:它起初偏向纹理,随后逐步获得对物体结构同样强的把握。神经元似乎并非将整体物体作为不可分割的单元编码,而是更优先编码可重复使用的局部特征,这些特征可以组合成许多不同的场景。高级的 PIT 神经元可以同时与基于纹理和基于物体的视觉描述对齐——这种多功能性是当前人工网络仍难以匹敌的。对普通读者来说,关键结论是我们的脑并非简单的“物体探测器”:它是复杂的模式引擎,既能从微观纹理也能从整体形状中读取意义,并在空间与时间上切换侧重以支持我们理所当然的丰富视觉体验。
引用: Wang, B., Ponce, C.R. Neuronal tuning aligns dynamically with object and texture manifolds across the visual hierarchy. Nat Neurosci 29, 864–875 (2026). https://doi.org/10.1038/s41593-026-02207-1
关键词: 视觉皮层, 物体识别, 纹理处理, 生成模型, 神经元调谐