Clear Sky Science · zh
基于合成数据的无标记自主原子力显微镜深度学习
在没有人眼的情况下观察微小世界
我们设计新材料、研究清洁能源器件或探测活细胞的能力,常常依赖于观察比人类头发细千倍的结构。原子力显微镜(AFM)可以以三维方式描绘这些微观景观,但如今仍高度依赖专家操作员来决定在哪里观察以及如何解释图像。本文提出了SimuScan——一种通过训练计算机使用逼真的模拟图像来运行AFM并识别纳米尺度特征的方法,避免了对费时标注的实验数据的依赖。
当今纳米尺度成像为何陷入困境
AFM 已成为材料科学、能源研究和生物学中的核心工具,因为它能以纳米级精度“触摸”表面。然而它速度缓慢、一次仅覆盖小面积,并且需要熟练用户做出许多决定:在哪里扫描、使用何种设置、哪些微小形状重要。不同于可拍摄大范围概览图像的光学或电子显微镜,AFM 是逐行构建表面。此外,现代人工智能方法依赖于大规模带标签的图像集合(如日常照片所具有的那类),但AFM领域并不存在这样的数据集。每幅AFM图像都受仪器细微特性影响——噪声、畸变和探针形状等,因此直接用普通照片训练的通用计算机视觉工具常常在AFM上失效。
用“假想”图像教显微镜
作者的核心想法是生成大量看起来并表现得像真实AFM图像的合成图像库,包含所有常见的缺陷。他们的SimuScan框架首先定义可能出现在样品上的形状:简单的方块与棒状结构、精细的DNA组装体,或整颗细菌。此类形状可以来自数学描述、计算机辅助设计文件,甚至从少数真实AFM图像中提取的3D表面。SimuScan 随后将这些对象放置在可包含台阶、粗糙度、周期性图案和随机碎屑的模拟基底上,构建逼真的、预变形景观。最后,它通过一个详细的显微镜前向模型,使有限探针尖端、反馈故障、逐行校正和电子噪声等效应叠加到这些表面上。结果是一幅与AFM实际测量非常相似的图像,并配有每个对象轮廓的精确“真实标签”地图。

从模拟像素到可靠的人工智能
由于每幅合成图像都为每个特征和像素提供了完美标签,SimuScan 可以为现代深度学习模型提供在纳米尺度成像中通常欠缺的丰富训练素材。团队在每项任务中使用了超过5,000张合成图像,测试了若干流行架构——用于快速目标检测的 YOLOv8、用于精细轮廓的 U-Net,以及用于实例级掩码的 Mask R-CNN。令人惊讶的是,仅在这些人工数据集上训练的模型,在评估真实的已由专家细心标注的纳米结构和细菌AFM图像时表现强劲。不同形状和细胞类型上的检测分数与分割精度均很高,表明模拟图像已捕捉到这些微小结构及其常见成像伪影的关键外观特征。

让显微镜决定观察位置
研究人员随后闭合了模拟、人工智能与物理仪器之间的回路。在他们的半自主工作流中,AFM 首先对相对较大区域进行低分辨率概览扫描。一个在 SimuScan 数据上训练的模型实时分析该图像,发现感兴趣的结构——例如某些细菌形状或特定的纳米制造图案——并为放大高分辨率扫描选择有前景的区域。显微镜自动移动、重新扫描,并在样品上重复这一循环,受简单的用户定义规则引导,如所需的对象数量或要覆盖的总面积。采用该方法,系统能够自主找到并成像数百个单独细菌,然后测量其在群体中大小和形状的差异,这些都是手工完成将极为耗时的任务。
通向更智能显微镜的新路径
对于非专业读者,主要结论是 SimuScan 展示了“虚构但逼真”的数据如何帮助显微镜更像自动驾驶仪器。通过同时模拟表面上的微小对象和 AFM 观察它们时的各种特性,作者消除了对大型人工标注训练集的需求,使通用人工智能模型能在真实实验中良好运作。这为AFM研究打开了探索更大区域、分析更多对象并即时调整行为的可能性,使纳米尺度表征更快、更可重复,并对非专家更为友好。从长远看,类似的合成数据策略也可能帮助将自主、以发现为驱动的操作推广到许多其他类型的科学仪器。
引用: Millan-Solsona, R., Checa, M., Brown, S.R. et al. Synthetic data-driven deep learning for label-free autonomous atomic force microscopy. Nat Commun 17, 3886 (2026). https://doi.org/10.1038/s41467-026-70421-3
关键词: 原子力显微镜, 合成数据, 深度学习, 自主显微镜, 纳米结构成像