Clear Sky Science · zh

使用预训练大型语言模型进行物理知情符号回归的知识整合

· 返回目录

教计算机猜测自然的公式

许多重大的科学思想都被简洁的方程所表达:从球如何下落到光波如何在空间中传播。本文探讨了一种新方法,帮助计算机从原始数据中自动重新发现此类方程——让它们咨询大型语言模型(即驱动现代聊天机器人的那类人工智能),以使其猜测不仅精确,而且符合物理常识。

Figure 1
Figure 1.

从原始数据到可读的物理定律

作者将注意力集中在一种称为符号回归的技术上,该技术寻找将测量到的输入与输出联系起来的数学公式。与普通曲线拟合不同,符号回归不以固定的公式形式开始;相反,它构建并演化候选方程,直到某个方程很好地拟合数据。这使它成为科学发现的有前景工具,因为它有可能发现尚未被书写的新关系。然而存在一个问题:一个完美拟合数据的公式从物理角度看仍可能是无意义的——例如把距离与时间相加,或产生不匹配任何真实量纲的单位。

为什么物理直觉仍然重要

为避免此类荒谬,研究人员开发了“物理知情”的符号回归版本,将已知的自然规律嵌入搜索过程中。这些方法会奖励例如守恒能量或尊重量纲一致性的方程。然而,编码这些知识通常需要专家为每个新问题手工设计约束和特殊损失函数。这使得方法强大但难以推广。每一种新的物理系统可能都需要单独的精心设计工作,从而限制了这些工具对非专家的可及性。

让语言模型来评判方程

本研究提出了另一条路径:不用对领域规则进行死板编码,而是使用大型语言模型(LLM)作为对科学合理性的灵活评判者。在搜索过程中,符号回归引擎会生成不同程度上能拟合数据的候选方程。每个方程随后被转成文本并连同简短提示(描述所涉量及任何已知的物理约束)发送给LLM。LLM会返回三个方面的评分:方程的单位是否合理、其简洁程度以及其物理上是否可信。这些评分被纳入主目标函数,于是计算机在选择要保留并继续改进的方程时,需要在“拟合数据”与“看起来像好物理”之间取得平衡。

将方法付诸检验

为评估该方法的效果,作者在三个经典问题上进行了大量计算实验:地球重力下物体的自由下落、弹簧上质量块的简谐运动以及阻尼电磁波。对于每个系统,他们在不同条件下模拟了数千次带噪声的测量,然后要求三款流行的符号回归程序分别在有无LLM帮助的情况下恢复潜在方程。他们尝试了三种紧凑的开源语言模型——Mistral、Llama 2 和 Falcon,并探索了从最少上下文到完整描述、乃至直接给出真实公式等不同提示设计如何改变LLM的指导。在大多数设置下,加入LLM评分提高了恢复方程与已知定律的匹配程度并增强了对噪声的鲁棒性,其中PySR(一个符号回归库)与Mistral的组合通常表现最佳。

Figure 2
Figure 2.

当语言引导数学

一个关键发现是提示的措辞强烈影响结果。当提示包含清晰的变量描述、实验性质,有时甚至精确的目标公式时,LLM引导的搜索更可靠地收敛到正确的结构。在这些更丰富的情形中,发现的方程往往在结构上与真实定律一致,而不仅仅是数值上接近。作者还测试了该方法在逐步增加随机测量噪声下的表现。尽管所有方法随着数据变得更嘈杂、潜在方程更复杂而性能下降,LLM增强版本的精度下降通常更慢,这表明语言模型的合理性感知可以起到稳定作用。

这对未来发现意味着什么

对普通读者而言,主要信息是基于文本的人工智能不仅能写文章或回答问题——它也能引导其他算法朝着“看起来正确”的科学方程前进,这些方程符合我们对自然已有的理解。这里提出的方法并不能保证每一个被发现的方程都是正确的,它仍然依赖人工监督和精心设计的提示。但它表明,大型语言模型(在海量科学文本上训练)可以作为一种可重用的领域知识来源,帮助自动化工具从盲目拟合数据迈向提出科学家可以解读、检验和进一步构建的定律。

引用: Taskin, B., Xie, W. & Lazebnik, T. Knowledge integration for physics-informed symbolic regression using pre-trained large language models. Sci Rep 16, 1614 (2026). https://doi.org/10.1038/s41598-026-35327-6

关键词: 符号回归, 物理知情人工智能, 大型语言模型, 科学发现, 方程学习