Clear Sky Science · zh
ReactionSeek:基于大型语言模型的文献数据挖掘与有机合成知识发现
为何将旧化学论文变成数据至关重要
现代在医学、材料和绿色技术方面的突破越来越依赖计算机来发现模式并建议新分子。但大部分化学知识仍埋藏在百年积累的研究论文中——这些论文是为人类读者而写,而非机器。本文介绍了 ReactionSeek,这一系统教会人工智能阅读这些论文、提取重要的实验细节并将其转化为结构化数据。对于关心人工智能如何改变科学的人——从药物发现到更清洁的制造工艺——这项工作展示了如何最终解锁化学领域那片庞大的“隐匿档案”。

隐藏的化学知识问题
有机合成,即从简单分子构建复杂分子的技艺,是化学的核心。研究者发表了成千上万条详细配方,说明使用了哪些试剂、用量、反应温度以及反应成败情况。然而,这些信息分散在段落文本、示意图、表格和补充文件中。现有数据库仅覆盖其中一小部分,通常是专有的,有时也会漏掉不常见的反应。自动化实验室能生成整齐的数据集,但成本高昂且仅探索化学空间的一小部分。因此,大多数人工智能工具都以简化、清理过的数据为训练基础,无法充分反映真实实验工作的复杂与丰富性。
教会人工智能阅读化学论文的新方法
ReactionSeek 通过将大型语言模型——能够理解和生成文本与图像的人工智能系统——与专门的化学软件相结合来应对这一挑战。该框架像一个自动阅读器,扫描长期刊载的《Organic Syntheses》系列文章。首先,它分析反应示意图和结构图,将每个草绘分子与其在反应中的角色(例如起始物或产物)相连接。接着读取书面实验步骤,提取诸如使用了哪些化合物、数量、反应时间以及产率等细节。最后对所有内容进行标准化——包括名称、单位和格式——以便将数千篇不同文章合并为一个连贯、可检索的数据集。
系统如何挖掘图像、文本和数值
在图像处理方面,ReactionSeek 使用具视觉能力的语言模型来识别哪些绘制结构对应哪些标签,以及它们是作为反应物还是产物。另有专门的化学结构识别器将这些图形转换为计算机可处理的数字分子格式。对于文本,通过精心设计的提示引导语言模型应对实验写法的复杂风格,帮助其检测每种化合物、将其与标题匹配,并捕捉温度、时间、溶剂等条件。系统更进一步,提取像核磁共振和质谱这类复杂的测量数据,化学家依靠这些数据来确认目标分子是否正确生成。在通用 AI 工具常出错之处(例如将冗长的化学命名精确翻译为结构)中,ReactionSeek 会交叉校验公共化学数据库和专用的从名到结构的程序,主要将语言模型用作智能匹配器,而非单一决策者。

从一本期刊到一个世纪的化学趋势
为检验该方法,作者将 ReactionSeek 应用于 100 卷《Organic Syntheses》,覆盖 1921 年到 2021 年发表的反应。系统处理了三千多篇论文,每篇文章用时分钟级,而人工策展通常需数小时。它对关键字段的精确率和召回率均超过 95%。这一新结构化数据集包含近四千个不同反应和数千种独特化合物,均基于可重复的克级规模并经社区审核。基于此,研究人员还构建了一个交互式助手 SynChat,化学家可用自然语言提问——也可附带手绘分子——并得到基于挖掘文献的回答,同时附有链接回原始实验步骤。
让人工智能在一个世纪的实验中发现模式
在将反应数据组织起来后,团队使用另一个先进的语言模型去寻找随时间变化的宏观趋势。未被明确指示要寻找何种模式时,该 AI 仍然重新发现了领域内众所周知的变迁:约 1980 年后不对称催化的崛起,试剂从简单主族试剂向复杂的过渡金属催化剂的转变,以及高度有毒金属的逐步减少。它还识别出反应伙伴和催化金属的偏好变化,反映了化学家工具随着年代演进的路径。这些结果表明,当提供丰富且可信的数据集时,人工智能能够提供与专家理解一致的历史性和战略性洞见。
这对未来化学发现意味着什么
简而言之,ReactionSeek 是尘封化学档案与承诺加速未来发现的人工智能工具之间的一座桥梁。通过自动化读取、提取和清理反应细节的繁琐工作,它提供了高质量、可供机器直接使用的数据,能够驱动更好的预测模型、更智能的实验室规划以及为科学家提供更直观的检索工具。尽管系统在罕见化学命名、复杂表格和不完美结构识别方面仍面临挑战,但它已经表明,精心设计的提示与 AI 与规则化工具的合理组合,可以将非结构化的科学文献转变为一个可持续更新的知识库。对化学家与非专业读者而言,这指向了一个未来:数十年的实验工作可以在智能机器的辅助下被探索、质疑并延展。
引用: Li, J., Li, M., Yang, Q. et al. ReactionSeek: LLM-powered literature data mining and knowledge discovery in organic synthesis. Nat Commun 17, 3356 (2026). https://doi.org/10.1038/s41467-026-70180-1
关键词: 化学数据挖掘, 大型语言模型, 有机合成, 科学文本提取, 化学领域的人工智能