Clear Sky Science · zh

光谱量子化学与红外共振库:用于数据驱动分子光谱学

· 返回目录

为何看不见的光很重要

我们周围的每一样物体,从头痛药到塑料瓶,都是由静静振动的分子构成。这些微小的振动与红外光相互作用,产生独特的“指纹”,化学家借此区分不同物质。读取这些指纹的技术——红外光谱学——是药品质量检测、污染监测和材料设计等工作的基础。然而,直到现在,科学界一直缺乏一个大规模、清洁且开放的数字指纹库,用以训练现代人工智能工具。本文介绍了 SQuIRL,一种填补这一空白的新型计算数据库,可能改变我们用数据设计和识别分子的方式。

Figure 1
Figure 1.

面向分子的数字指纹库

这项工作的核心是 SQuIRL——光谱量子化学与红外共振库。作者并未依赖耗时的实验测量,而是使用高水平的量子计算来预测 133,885 个小有机分子如何响应红外光。对于每个分子,SQuIRL 存储了所有红外峰的位置和强度——即红外光谱的基本要素。这些分子来源于著名的化学集合 QM9,后者已包含详尽的结构与电子信息。通过在其上补充振动指纹,SQuIRL 将 QM9 转变为一个更丰富的数据驱动化学平台。

现有集合的局限性

多年来,若干实验集合已汇集了数千条红外光谱,包括 NIST、SDBS 和一些商业供应商的知名数据库。尽管这些资源非常宝贵,但也有限制:它们通常只覆盖常见且易于处理的分子,混合了不同的测量条件,而且常常被付费墙或不便于大规模分析的网络界面所限制。较新的计算数据集和 AI 生成的库在规模上更大,但往往在准确性、开放性或一致性上做出妥协。SQuIRL 的设计旨在落在一个理想平衡点:完全开放、规模足以满足现代机器学习的需求,并且以始终如一的高理论准确性计算。

光谱是如何生成的

为构建 SQuIRL,团队采用了在该领域以平衡精度著称的精心挑选的计算方案。每个分子的构形取自 QM9,随后用一种量子力学方法分析,以捕捉电子的运动和原子协同振动。从中,作者提取了每个振动模式的频率和强度——红外光谱的原始构件。他们有意保持这些数据未经处理,以便用户日后可以根据需要将其平滑为连续曲线或施加修正。除光谱外,SQuIRL 还存储了大量附加信息:电荷分布、分子极化易感性、基本热力学量,甚至结构的标准线描图,所有内容以便于机器读取的 HDF5 文件组织,并配有用于快速筛选的索引。

检验准确性与化学多样性

准确性和多样性对于让机器从此类库中学习至关重要。作者对一组熟悉的小分子(如氨、乙醇和甲醛)进行了基准测试,将 SQuIRL 预测的光谱与顶级量子方法和可信的实验测量值进行比较。峰位差异通常只有红外尺度上的几十个单位,处于高质量计算工作可接受的范围之内。同样重要的是,SQuIRL 覆盖了广泛的化学“风味”:常见基团如醇类和醚类与较少见但科学上重要的硝基和胍类并列出现。大多数分子包含多个不同的官能特征和键合模式,统计检验显示即使在单一类别内部,结构也并非彼此重复。这种结构与电性上的多样性有助于避免偏差,使该数据集特别适合训练稳健的人工智能模型。

Figure 2
Figure 2.

为人工智能引导的发现奠定基础

从非专业角度看,SQuIRL 如同一本高分辨率的图谱,描绘了小分子在不可见红外光照射下的“声响”。由于其规模大、准确且开放,这本图谱可以为新一代读取或甚至基于光谱指纹设计分子的算法提供训练素材——类似于语音识别系统从大量录音档案中学习。通过标准化数据存储方式并提供详尽文档,作者使学术界和工业界的研究者能够轻松将 SQuIRL 插入各自的工作流程。在实际应用中,该资源可加速从自动结构鉴定到定向搜索新药物与新材料等任务,为化学这一最传统的实验工具之一带来数据驱动的方法。

引用: Krishnadas, A., Kansal, J., Charron, N.E. et al. Spectral Quantum Chemistry and Infrared Resonance Library for Data-Driven Molecular Spectroscopy. Sci Data 13, 618 (2026). https://doi.org/10.1038/s41597-026-07240-0

关键词: 红外光谱学, 分子指纹, 量子化学数据, 光谱数据库, 化学中的机器学习