Clear Sky Science · zh

在原子分辨显微下使用卷积变分自编码器进行无监督缺陷聚类

· 返回目录

为什么晶体中的微小瑕疵很重要

现代电子设备、太阳能电池和传感器都依赖于在原子尺度上看似完美有序的材料。实际上,每个晶体都会散布着微小的缺陷——缺失的原子、额外的原子或模式中的轻微位移——这些缺陷可能提升器件性能,也可能悄然削弱其功能。本文所述工作提出了一种方法,让人工智能在高分辨率显微图像中自动寻找这些缺陷,无需人工标注或专家调参,从而为更快、更少偏见的材料发现铺平道路。

Figure 1
Figure 1.

让计算机学会“完美”的样子

研究人员从一个简单的想法出发:与其教计算机识别所有可能的缺陷,不如只教它什么是完美晶体。他们使用来自强大电子显微镜的原子分辨图像,其中每个明亮的点对应一列原子。一种称为卷积变分自编码器的特殊神经网络在被认为无缺陷的图像区域上进行训练。随着时间推移,该网络学习到晶体的规则重复模式,并变得非常擅长重建理想、未受扰动的晶格应有的样子。

将差异转化为缺陷地图

一旦网络学会了理想模式,就把每个新的显微图像补丁输入其中。模型会生成该补丁的无瑕版本的最佳猜测。通过用真实图像减去这个猜测,方法得到一幅“差异”图,突出显示不符合所学模式的部分——例如多余的原子、缺失的原子双柱或堆垛的位移。进一步的滤波步骤去除随机噪声和边缘伪影,留下干净的信号,聚焦于真实的结构异常而非图像窗口裁切方式。实际上,该系统将问题从“学习所有可能的缺陷”重新表述为“发现任何不正常的东西”。

从原始图像到有意义的分组

为将这些缺陷归类为有用的类别,团队把每个补丁转换为47个简单的数值描述符集合。这些描述符刻画了补丁的平均亮度、强度分布的偏斜程度、包含多少锐利特征、以及其空间模式的重复性等特征。他们随后分三步裁剪该列表:去除行为几乎相同的冗余描述符、丢弃无法将图像区分成不同组的描述符、以及滤掉几乎不变化的描述符。这个候选名单留下了更精简、更有信息量的特征集合,在捕捉真实结构差异的同时减少了噪声和计算量。

让数据决定存在多少种缺陷类型

得到这些精炼特征后,作者使用标准聚类工具让数据自行组织。他们首先用主成分分析压缩特征空间,保留最重要的变异同时缩减维度。然后多次应用经典聚类方法 k-means,同时系统地改变簇数和主成分数。一个称为轮廓系数的质量度量评估所得分组的分离程度。通过在各种可能性上扫描,该框架自动确定簇的位置以及最能描述数据集的缺陷类型数量——无需任何先验标签或手动选择。

Figure 2
Figure 2.

在两种不同晶体上的验证

该方法在两种研究较多的材料图像上进行了测试:用于薄膜太阳能电池的碲化镉和作为模型氧化物晶体的钛酸锶。在碲化镉样本中,数据集包含体相区域、几种堆垛错、特殊位错结构和孪晶界,以及人为添加的额外和缺失原子。尽管存在微妙的对比差异和干扰性的边缘效应,该框架自动恢复了七个与这些类别相匹配的不同簇,在一千多幅图像中仅有少量误分类。应用于钛酸锶——其中一些缺陷仅与完美晶格略有差别——相同的工作流程再次找到正确的簇数并高精度地对图像进行归类,表明该方法并非专门调校于某一种材料。

这对未来材料研究的意义

简而言之,该研究表明计算机可以在最少人工干预下自我学习识别并分组显微图像中的原子尺度缺陷。通过学习晶体的正常模式并聚焦于差异,系统能够筛选大量图像集合,发现不同类型的瑕疵,并可在普通实验室计算机上运行。这种无监督的自动分类能够帮助研究人员快速绘制样品中缺陷的分布及其与性能的关系,为更自主、数据驱动的下一代材料设计与优化奠定基础。

引用: Ayyubi, R.A.W., Sultanov, S., Buban, J.P. et al. Unsupervised defect clustering in atomic-resolution microscopy using a convolutional variational autoencoder. npj Comput Mater 12, 166 (2026). https://doi.org/10.1038/s41524-026-02024-x

关键词: 原子缺陷, 电子显微镜, 无监督学习, 自编码器, 材料表征