Clear Sky Science · zh
神经网络泛化能力中的高熵优势
这对日常 AI 有何意义
现代人工智能系统能够识别人脸、翻译语言并以惊人精度预测房价——然而我们仍未完全弄清楚它们为何能在新的、未见过的数据上表现良好。本文利用来自物理学的思想来研究这一谜题。作者表明,最可靠的神经网络并不仅仅是那些拟合训练数据的模型,而是那些在其内部参数空间中“空间宽敞”的区域中存在的模型——他们称这一性质为高熵优势。
关键词: 神经网络泛化, 机器学习中的熵, 损失景观, 过参数化模型, 人工智能的统计物理