Clear Sky Science · zh

用于模拟人类概念形成、理解与交流的神经网络

· 返回目录

心智如何把所见转为观念

当你听到“晚餐”这个词时,即便看不到食物,也能在脑海中浮现出餐桌、气味和声音。这种把丰富的视觉与听觉经验压缩成紧凑观念并随后再调用的能力,是语言、计划与共享理解的基础。论文提出了一种新型人工神经网络,试图捕捉人类心智的这种日常“魔力”,为我们理解大脑如何组织知识以及未来机器如何以更类人方式思考提供了见解。

Figure 1. 压缩的概念编码如何将多样的视觉经验转化为灵活决策与不同系统之间的共同理解。
Figure 1. 压缩的概念编码如何将多样的视觉经验转化为灵活决策与不同系统之间的共同理解。

把丰富经验打包进简单编码

作者从一个简单问题出发:大脑如何将详细的感觉输入压缩为较少的概念,再灵活地使用这些概念?现有人工网络在识别图像方面非常出色,但它们把学到的内容隐匿在数以百万计的参数中,难以重用或与其他系统分享。大型语言模型则依赖已有的人类词汇,而不是直接从图像和声音构建概念。名为CATS Net的新框架旨在在单一系统内同时模拟概念形成与概念使用,仅从视觉任务开始学习。

用于概念与决策的两个协同模块

CATS Net将思维拆分为两个交互部分。概念抽象模块为每类对象(例如苹果或公交车)基于视觉示例学习一个短的数值编码,称为“概念向量”。独立的任务求解模块接收来自标准视觉骨干网络的图像特征,需要回答诸如“这是苹果吗?”之类的简单是/否问题。关键技巧是门控过程:概念向量控制信息在任务求解层中的流动,重塑相同网络以处理不同概念,而无需改变其核心连线。训练在微调模块与调整概念向量之间交替进行,使网络与其内部概念逐步专门化。

发现类人人类的意义地图

在大规模图像数据集上训练后,CATS Net不仅能高准确率地对未见图像进行分类,还发展出有组织的“概念空间”。相邻的编码往往代表相关事物,例如动物聚集在一起或工具形成独立群组。作者表明这种排列并非任意:它与人类研究中人们对物体相似性感受的评分模式相吻合,并且与基于语言的模型在多个维度上描述意义(如食物、家具或情感价值)的方式相一致。值得注意的是,当研究者将网络内部的相似性模式与志愿者命名物体时的脑扫描进行比较时,发现概念层与高级视觉区域的活动相对齐,而门控模块则类似于参与控制访问意义的脑区。

仅通过概念共享知识

研究还探讨了低维概念能否作为不同网络之间的通用货币。团队训练了分别的“教师”和“学生”版本的CATS Net,类别集合有重叠,然后添加一个小型翻译模块,将教师空间的概念向量映射到学生空间。在不改变主网络权重的情况下,学生可以使用翻译后的概念向量来表示训练期间从未见过的类别,并在是/否判断上仍显著高于随机水平。在其他测试中,CATS Net成功利用了由语言统计和行为数据构建的人类来源概念空间,将它们视为自己的内部编码。

Figure 2. 概念向量如何门控神经网络的各层,使相同电路能够解决不同基于图像的“是/否”任务。
Figure 2. 概念向量如何门控神经网络的各层,使相同电路能够解决不同基于图像的“是/否”任务。

这对心智与机器有何意义

综合来看,这些结果表明:紧凑的概念编码结合对感觉处理的灵活门控,可能为类人人类的概念性思维提供可行方案。该模型展示了如何将丰富的视觉经验压缩为可重用、可共享的表征,并与人类行为与大脑活动中的模式对应。尽管这项工作集中于我们能看见并命名的具体物体,但它指向未来系统可能也能捕捉更抽象的观念,使人工智能向人类形成、理解与交流概念的方式更进一步。

引用: Guo, L., Chen, H., Chen, Y. et al. A neural network for modeling human concept formation, understanding and communication. Nat Comput Sci 6, 497–511 (2026). https://doi.org/10.1038/s43588-026-00956-4

关键词: 概念形成, 神经网络, 语义认知, 大脑对齐, 概念交流