Clear Sky Science · zh

基于等变扩散的从粉末 X 射线衍射数据确定无机晶体结构的方法

· 返回目录

教会计算机识别晶体指纹

从电池到催化剂与磁体,许多当代技术都依赖于无机晶体中原子的精确排列。这种看不见的结构通常通过 X 射线解读,X 射线会留下独特的“指纹”图案。但将这些图案转换为准确的原子地图,长期以来需要数年的训练和反复的试错。这项研究引入了一种名为 XRDSol 的人工智能系统,它能读取这些指纹并在不到一秒内提出完整的晶体结构,从而为更快的材料发现和更可靠的材料数据库打开了大门。

为什么粉末衍射图谱难以破解

当 X 射线穿过形状完美的单晶时,会产生丰富的三维图样,可用于精确定位每个原子。然而现实样品往往是由许多微小晶粒组成的粉末。其 X 射线衍射图谱会坍缩为一维的强度峰序列,其中许多原有的空间信息丢失。人类专家通常必须将这种压缩的图谱与化学与晶体学知识相结合,猜测晶格参数、对称性和原子位置,然后反复精修这些猜测。对于复杂或了解甚少的材料,解可能不完整、有争议甚至错误,许多大型结构数据库中存在数千条缺失或不合理的原子坐标条目。

一种能重建原子排列的人工智能

作者用 XRDSol 解决了这一挑战,该模型基于作用在晶体图表示上的等变扩散过程。XRDSol 并不从良好的初始猜测出发,而是在已知的晶胞(已知化学式和晶格参数)内将原子随机放置。训练过程中,模型学习逆转一种逐步“加噪”过程,即将公认的热力学稳定结构反复扰动。在目标粉末 X 射线衍射图谱的压缩表示的指导下,模型迭代地“去噪”这一随机排列,逐步推动原子进入在化学上合理且与观测图谱一致的位置。由于底层神经网络尊重晶体的旋转与平移对称性,它自然而然地倾向于物理上合理的排列。

Figure 1
Figure 1.

在多种材料上快速且准确的解

为测试 XRDSol,团队使用了包括 9,000 多个稳定无机结构及其模拟粉末图谱的数据集。在单个图形处理器上,模型生成一个结构解大约需要 0.6 秒——比依赖繁重量子力学计算和进化搜索的早期方法快约一万到十万倍。在超过 80% 的情况下,XRDSol 恢复的原子位置与已知结构高度匹配;在超过 90% 的情况下,重构的衍射图谱与目标高度相似。该方法对高对称性的晶体效果尤为显著,但在低对称性、更复杂的情况下性能会下降。尽管如此,从简单的盐类到复杂的氧化物、硫化物及金属间化合物的示例表明,该方法在不同化学体系中具有广泛适用性。

修正旧记录与补全缺失结构

除了重现已知结果外,XRDSol 还能改进可疑条目。作者重新审视了数千条具有异常高计算能量的数据库记录——这通常表明已发表的结构存在问题。仅使用粉末图谱、晶格和组成为输入,XRDSol 提出替代的原子排列。至少对 39 种化合物,新结构更好地匹配衍射数据且能量显著更低,在若干研究良好的案例中与后来的实验重测结果一致。该系统还为 912 条已知衍射图谱但缺失原子位置的条目补全了坐标,包括包含氢与锂等轻元素的难题、含杂质的天然矿物和表现出化学无序的材料。这些 AI 生成的结构通过量子计算与人工检查进行了验证,被认为在能量上可行且化学上合理。

Figure 2
Figure 2.

迈向自动化的材料发现

XRDSol 展示了基于扩散且具对称性意识的神经网络能够学习解决无机晶体结构所需的大部分专家知识,直接从粉末 X 射线数据中给出解答。尽管该方法在处理非常大的晶胞、低对称相以及完全无序位点时仍有困难,但它已能提供快速的、高质量的初始模型以供进一步精修。在实践中,这意味着为非专业人员提供更快的常规分析、成为清洗与补全大型结构数据库的强大工具,并作为闭环实验室的一项关键组件,使计算机能够在最少人为干预下设计、合成、表征和优化新材料。

引用: Yu, D., Zhu, Z., Leng, F. et al. Equivariant diffusion solution for inorganic crystal structure determination from powder X-ray diffraction data. Nat Commun 17, 3274 (2026). https://doi.org/10.1038/s41467-026-70035-9

关键词: 粉末 X 射线衍射, 晶体结构确定, 等变扩散模型, 材料信息学, 图神经网络