Clear Sky Science · zh
迈向端到端自动化的人工智能研究
为何机器人科学家很重要
想象一个不知疲倦的数字研究者,它能构思想法、编写代码、运行实验、绘制图表,甚至在几乎不需人工帮助的情况下起草和审阅科学论文。本文描述了这样一个系统,称为“人工智能科学家”。研究显示,现代人工智能现在几乎可以处理机器学习研究项目的每一个环节,这暗示着发现可能会更快到来——但同时也带来了关于信任、就业和科学健康状况的严肃问题。

从想法到成文论文
人工智能科学家被设计用来走完整个研究生命周期,类似于一名研究生。首先,它在选定的机器学习领域内提出研究方向,解释每个想法为何可能有趣并概述测试计划。然后它会将这些想法与在线研究数据库对照,以避免简单复制已有工作。只有看起来真正新颖的想法才会进入下一步。接着,系统编写和编辑运行实验所需的代码,修复许多自身的错误,并保留一份持续更新的“实验笔记”,记录所尝试的内容和结果。
两种让系统探索的方式
研究人员构建了该数字科学家的两个版本。在“基于模版”的模式下,人类提供一个简单的起始程序,系统逐步修改它以探索相关问题。在“无模版”模式下,人工智能几乎从零开始:它自行发明想法、设计实验并编写代码,仅由诸如会议研讨会主题等宽泛指令引导。这个开放式版本通过在多条并行实验“路径”中进行分支搜索来工作,提升最有前途的分支并剪除崩溃或产生差结果的路径。更多的计算资源使其能够探索更多分支,往往也会产生更强的最终研究成果。

教会人工智能像同行评审者一样评判
评判源源不断的人工智能撰写论文的质量是一项挑战,因此团队还构建了一个自动化评审器。该工具阅读研究论文,按合理性和贡献对其打分,列出优点和缺点,并按照顶级机器学习会议的相同指南给出接受或拒绝的建议。在对数千篇具有已知决策的真实论文进行测试时,自动化评审器的判断与人类评审者之间的匹配程度与人类相互之间的匹配相当。即便在其训练数据中不存在的近期论文上,它的表现也类似,这表明它确实学会了审稿任务,而不是记忆结果。
将人工智能科学家付诸实测
为了检验系统在真实环境中的表现,作者要求其为一家顶级机器学习会议的研讨会生成完整论文。在获得伦理批准并得到组织者配合的情况下,三篇由人工智能生成的稿件与人类撰写的论文一同提交。评审者被告知可能存在人工智能撰写的投稿,但不知道哪些是。三篇人工智能创作的论文中有一篇获得的评审分数达到了研讨会的录用门槛;作者随后根据事先约定的协议将其撤回。其余两篇未达到标准。总体来看,该系统产生的工作尚未能与最优秀的人类研究相媲美,但已足够有时通过真实的同行评审。
承诺、隐患与前路
尽管人工智能科学家仍会犯错——例如浅显的想法、代码错误和误导性引用——该研究表明,随着底层人工智能模型和计算资源的改进,这类系统很可能会大幅提升。这可能在能够在计算机或自动化实验室中运行实验的领域极大加速发现。与此同时,轻松生成论文可能会使期刊被低质量工作淹没,模糊作者身份和学术功劳的界限,并可能促成风险性或不道德的实验。作者们主张,科学界需要在技术仍处于萌芽阶段时就制定明确规则和保障措施,以确保自动化研究者最终是加强而非削弱科学。
引用: Lu, C., Lu, C., Lange, R.T. et al. Towards end-to-end automation of AI research. Nature 651, 914–919 (2026). https://doi.org/10.1038/s41586-026-10265-5
关键词: 自动化科学研究, 人工智能科学家, 机器学习实验, 同行评审自动化, 科学诚信