Clear Sky Science · zh

KAN 增强的对比学习:加速从 XRD 图谱识别晶体结构

· 返回目录

为什么更快的晶体映射很重要

用于电池、电子器件和清洁能源的新材料常常是一种晶体一种晶体被发现。每种晶体的原子内部排列决定了其性能,科学家通常通过粉末 X 射线衍射(XRD)图谱——当 X 射线从样品散射时产生的刺状曲线——来读取这种排列。如今,将这些图谱解析为具体结构是一项缓慢且依赖专家的工作。本文介绍了一种机器学习系统,能够快速将 XRD 图谱匹配到可能的晶体结构,使这项侦查工作更快、更可靠,并且更容易嵌入自动化实验室。

从刺状图谱到原子蓝图

在传统做法中,XRD 专家会检查图谱的峰值,利用物理公式推断可能的原子间距,然后对候选结构与数据进行迭代比对。当峰重叠或存在许多相似可能性时,这一过程会遇到困难,而且难以扩展到可以每天生成成千上万图谱的现代高通量实验。以往的机器学习工具大多将 XRD 视为一个标注问题——从图谱预测对称类或空间群——而不是直接识别结构。新方法称为 XRD‑Crystal Contrastive Pretraining (XCCP),将任务重新表述为检索问题:给定一个图谱,从大型数据库中找到最兼容的晶体。

Figure 1
Figure 1.

对 X 射线图谱的双眼视角

XCCP 学会以一种受物理启发的方式“看” XRD 数据。该方法不是将整个图谱输入单一神经网络,而是将其分为两个角度范围。一个分支关注小角度,捕捉诸如层间距和超晶格等长程特征;另一个分支专注于大角度,在那里峰较密集并且强烈受晶体对称性支配。每个分支由深度网络处理,然后由基于 Kolmogorov–Arnold 网络(KAN)的特殊投影模块组合起来。该模块擅长将注意力聚焦在图谱的窄区域——正是尖锐衍射峰携带最多结构信息的地方。

让图谱与结构在中间相遇

在晶体侧,XCCP 使用基于图的网络,将原子表示为节点、键表示为连接。在训练过程中,系统看到许多配对样本:一个 XRD 图谱及其已知晶体结构。它学习出一个共享的数值空间,使每个图谱在该空间中接近其对应的结构而远离不匹配的结构。当新的图谱到来时,模型将其嵌入该空间,与数据库中所有结构的嵌入向量比较,并返回排序后的候选名单。在不提供元素成分信息的情况下,正确结构近一半时候被排在第一位,并在绝大多数情况下出现在前五名。当用户同时提供化学成分——这是实际实验中常可获得的信息时,Top‑1 匹配几乎 90% 的时候是正确的。

Figure 2
Figure 2.

看见机器所见

作者探查他们的系统是依赖真实物理信号还是数据中的偶然特征。通过遮蔽图谱的部分区域并使用归因工具,他们表明 KAN 头的决策主要基于强且界定良好的衍射峰,而不是基线的宽背景变化或噪声。添加的小角度分支持续提升了性能,尤其对于低对称性晶体和高角度特征不明确的图谱。该模型对常见实验缺陷也表现出鲁棒性,例如峰展宽和沿角度轴的小位移,并且能较好地迁移到真实实验数据集。重要的是,它产生的相似度分数同时可作为置信度量,当真实结构不在数据库中时,该分数会明显下降——这是安全、现实应用所必需的特性。

迈向更智能的自驱动材料发现

对非专家来说,主要信息是 XCCP 将 XRD 分析从一门手艺转变为快速、数据驱动的检索。通过在共享空间中对齐衍射图谱与候选晶体,并采用物理感知的网络设计,该系统能迅速提出一份可解释置信度的现实原子蓝图短名单。它并不取代专家判断或详细精修,但大幅加速了第一步、也是最难的一步——判断哪些结构是可行的。这使其非常适合高通量和自主化实验室,机器人可以合成新化合物、测量其 XRD 图谱,并让 XCCP 实时建议可能的结构,从而加速从原始数据到新材料的路径。

引用: Xu, C., Su, T., Xiong, J. et al. KAN-enhanced contrastive learning: the accelerator of crystal structure identification from XRD patterns. npj Comput Mater 12, 144 (2026). https://doi.org/10.1038/s41524-026-02015-y

关键词: 粉末 X 射线衍射, 晶体结构识别, 对比学习, 材料信息学, Kolmogorov–Arnold 网络