Clear Sky Science · zh

一种基于专家指导监督学习的多孔材料数据高效基础模型

· 返回目录

教计算机“读”气体用的海绵

多孔材料就像微观海绵,可以吸附、分离并储存二氧化碳、甲烷和氢气等气体。它们对清洁燃料、碳捕集和化工制备至关重要。但要发现哪种新材料最有效,通常需要大量繁琐的模拟和实验。本文介绍了SpbNet——一种新型人工智能模型,它通过内置的物理知识而不是单靠粗暴的数据,能够更高效地学习这些海绵状材料的“语言”。

Figure 1
Figure 1.

聪明海绵的重要性

金属–有机框架、共价有机框架、多孔聚合物和沸石都属于一类充满微小、规则排列孔洞的材料。它们的性能取决于孔洞的形状以及气体分子在孔内移动时的“感受”。原则上,计算机可以预测这种行为,但传统的机器学习模型需要庞大的训练集,而在材料科学中,测得的结构和高质量模拟数据往往稀缺且昂贵。SpbNet通过将已确立的物理规则直接编织进训练过程中,解决了这一瓶颈,使其在更少数据下完成更多任务。

建立在吸引与排斥物理之上

作者没有只向模型输入原子位置的原始数据,而是编码了通用气体分子在材料空间中多个点位的相互作用。他们构建了20个“基态”模式,描述熟悉的力学行为:当原子靠得太近时产生的短程排斥,以及更远距离处的吸引力。这些模式被组合成覆盖材料孔隙的三维网格,描绘出不依赖于任何特定气体种类的能量景观。SpbNet的一部分是基于图的网络,用于研究材料的原子与键;另一部分类似图像网络,用于分析该能量网格。一个交叉注意力模块使这两条信息流相互交流,从而将局部力学模式与全局孔隙形状联系起来。

跨尺度学习几何结构

为了让SpbNet适应多种任务,团队并没有一开始就让它直接预测气体吸附量。相反,他们先训练模型掌握材料科学家已知且可计算的几何问题:最窄通道的宽度、最大空腔的尺寸,以及不同探针尺寸实际可达的体积和表面积。在更细的尺度上,模型学习每个小区域内有多少原子,以及该区域与固体表面的距离。这些有监督的练习迫使网络建立起有关孔隙形状与连通性的详细内部地图,随后对气体存储、分离乃至力学强度等多种性质都大有裨益。

Figure 2
Figure 2.

用更少的数据胜过更大的模型

在此训练之后,SpbNet被微调用于实际任务,例如预测材料能吸附多少二氧化碳或甲烷、其分离气体混合物的能力以及气体在材料中的扩散速度。在50多个基准测试中,SpbNet持续给出比以往最先进模型更准确的预测,其中一些对手使用的训练材料数量几乎多出二十倍。它的泛化能力也令人惊讶:尽管预训练只在一类多孔晶体(即金属–有机框架)上进行,SpbNet仍能有效迁移到相关但不同的材料,如共价有机框架、多孔聚合物网络和沸石,在许多情况下显著降低误差。

窥见模型的推理过程

为理解该策略为何有效,作者探查了SpbNet的内部工作机制。他们发现,全局几何目标与局部表面相关任务的结合,鼓励模型在多层网络中保留丰富的局部信息,而不是把一切平滑成乏味的平均值。移除部分基于物理的训练或丢弃基于能量的描述符会明显降低预测性能,尤其是在依赖微小尺寸与形状效应的任务上,例如区分仅在尺寸上略有差异的气体。

对未来材料发现的意义

简而言之,SpbNet表明:如果把已有的物理知识谨慎编码进模型,就可以在不淹没于海量数据的前提下训练出功能强大、灵活的多孔材料模型。通过先教会网络理解孔隙几何和通用相互作用模式,作者构建了一个基础,支持对多种具体目标进行准确且数据高效的预测。这一方法有望加速更好材料的发现,用于捕获温室气体、净化化学品和储存清洁燃料,并为在其他数据稀缺的科学领域设计同样高效的模型提供蓝图。

引用: Zou, J., Lv, Z., Tan, W. et al. A data-efficient foundation model for porous materials based on expert-guided supervised learning. Nat Commun 17, 2618 (2026). https://doi.org/10.1038/s41467-026-69245-y

关键词: 多孔材料, 金属有机框架, 机器学习, 气体吸附, 基础模型