Clear Sky Science · zh
GENIUS:一种用于自主设计与执行模拟协议的代理式人工智能框架
发现新材料的更聪明工具
设计更好的电池、催化剂和电子器件越来越依赖于在实验室制造之前就能预测材料行为的计算机模拟。然而执行这些模拟通常需要熟悉复杂软件命令和成千上万技术选项的专家。本文介绍了GENIUS,一种像专家助理一样的人工智能系统,能够将科学家用自然语言提出的请求自动转换为可运行的模拟设置。通过降低技术门槛,GENIUS旨在让更多研究者在日常工作中使用强大的量子级别计算。

虚拟实验背后的隐性摩擦
现代材料研究在很大程度上依赖逐原子模拟以快速且低成本地检验想法。像Quantum ESPRESSO这样的程序现在在许多晶体体系上能够达到与实验相当的精度,但其日常使用往往局限于专家。设置一次计算可能需要查阅繁复的文档、选择兼容的参数并调试难以理解的错误信息。即便是有经验的用户也可能花费数小时与输入文件挣扎,而非思考科学问题。软件能力与大多数科学家能舒适使用的能力之间的这种差距通常被称为“知行差距”,它减缓了理论向现实技术的转化。
人和代码之间的智能中间层
GENIUS被设计为位于研究者与模拟程序之间的智能中间层。用户以自由形式提出请求,例如要求对某种特定的二维材料进行几何优化并指定量子方法。GENIUS使用大型语言模型和编码了Quantum ESPRESSO 247个关键设置之间及其与底层物理关系的结构化“知识图谱”来分解该请求。据此,它起草出符合软件语法和内部规则的完整输入文件。关键在于,GENIUS并不只是依赖语言模型的记忆;它在经策划的文档和关于实际研究材料的数据库信息中寻找依据,从而大幅减少杜撰或不一致的设置。
在无需人工调试的情况下从错误中学习
即便是精心准备的模拟也可能在首次运行时失败。为此,GENIUS包含一个自动化的错误恢复循环。当Quantum ESPRESSO拒绝输入时,程序会产生错误信息。GENIUS读取该信息,咨询其知识图谱以解释出错原因,并提出修正后的输入版本。一个简单但有纪律的控制系统记录这些尝试,决定何时用相同的语言模型重试、何时从干净模板重新开始以及何时升级到更强大的模型。该循环持续进行,直到模拟通过初步检查或系统判断进一步尝试不太可能有用为止。在整个过程中,日志记录每一个决策,为事后检查或人工干预提供清晰的痕迹。

系统在实践中的表现如何
为了评估GENIUS的稳健性,作者收集了295条来自经常使用量子模拟(但不一定使用Quantum ESPRESSO)的化学家和物理学家的真实提示。这些提示从简单到高度详细的任务不等。研究团队测量GENIUS能否在短暂的一分钟验证窗口内将每个请求转换为程序能解析并开始运行的输入文件。大约80%的提示产出了可工作的设置。约14%的任务在首次尝试时就成功,而其余大多数则由自动错误处理循环挽救。随着每次额外尝试,“拯救”失败运行的概率迅速下降并趋近于7%的基线,显示出大多数可修复的问题在早期就被解决。没有知识图谱和控制逻辑的简单语言模型基线几乎无法产生有效输入,这凸显了GENIUS架构(而不仅仅是更大模型)的价值。
将高级模拟向更多科学家开放
从非专业角度看,GENIUS是使高度技术化的量子模拟像现代搜索引擎一样易于接近的一步。研究者无需记忆深奥命令,只需描述他们想要的内容,系统便能自动组装、测试并修复所需指令。在底层,GENIUS结合了结构化领域知识、多种语言模型和谨慎的重试策略以控制错误。尽管当前工作聚焦于一个广泛使用的模拟软件包,但相同的设计可以适配到其他具有清晰文档和错误信息的代码中。通过缩小知行差距,像GENIUS这样的框架可能帮助更多实验室、公司和学生将先进的计算工具带入日常的材料发现工作。
引用: Soleymanibrojeni, M., Aydin, R., Guedes-Sobrinho, D. et al. GENIUS: an agentic AI framework for autonomous design and execution of simulation protocols. Commun Mater 7, 115 (2026). https://doi.org/10.1038/s43246-026-01167-0
关键词: 材料模拟, 自主工作流, 代理式人工智能, 密度泛函理论, Quantum ESPRESSO