Clear Sky Science · zh

开放分子晶体 2025 (OMC25) 数据集与模型

· 返回目录

为什么大量晶体数据很重要

分子晶体是许多日常技术的核心,从药物和颜料到柔性电子器件。它们的行为不仅取决于所含原子种类,还取决于大量分子副本在固体中如何堆积。预测这种堆积及其后果历来艰难且耗时,通常需要高强度的量子力学计算。本文介绍了一个新的开放数据集,名为开放分子晶体 2025(OMC25),该数据集汇集了数千万个经过精心模拟的分子晶体结构。它旨在为现代机器学习方法提供丰富的“实践经验”,以学习这些晶体的行为,长期目标是让晶体设计更快、更便宜、更可靠。

Figure 1
Figure 1.

一个庞大的模型晶体库

OMC25 团队着手构建一个广泛的“训练场”,供预测分子晶体如何排列及这些排列如何稳定的计算模型使用。他们汇集了超过 2700 万个由约 5 万种不同有机分子构成的晶体结构。每个晶体仅包含常见的轻元素,如碳、氮、氧和少量卤素,基元重复单元中最多可含 300 个原子。对于每个结构,他们不仅记录原子的位置,还记录晶体的总能量、作用于每个原子的力以及晶胞内的机械应力。这些标注使机器学习模型能够将原子排列模式与物理行为联系起来。

从随机堆积到逼真固体

为填充该库,作者并未简单复制已知的实验晶体。相反,他们使用开源工具生成了分子在晶体中可能的多种堆积方式。他们改变基元晶胞中分子的数量,并探索了广泛的晶体对称性。对于每个候选结构,他们生成了稀疏堆积与致密堆积两种版本,以覆盖远离与接近真实条件的情形。然后他们使用一种高精度的量子方法(包含分子间的微弱吸引力)对每个结构进行弛豫——让原子逐步移动直到力基本消失。在这些弛豫路径上,他们采样了许多中间结构,捕捉晶体从粗略猜测向可能的物理排列收敛时的演变过程。

Figure 2
Figure 2.

严格过滤与丰富多样性

由于随机猜测可能产生不现实的情况,团队对数据进行了严格过滤。他们移除了能量、力或应力严重异常的帧,或分子以化学上不合理的方式发生断裂或合并的帧。还检查了晶胞体积是否出现大幅跳变,以免底层数值设定变得不可靠。最终得到的数据集在保持非物理示例最少的同时,覆盖了大量不同的化学体系和堆积样式。与大型实验晶体数据库相比,OMC25 包含更广泛的晶体对称性和晶胞尺寸分布,并有意对某些排列类型进行过采样,以挑战并丰富机器学习模型。

教计算机预测晶体

为检验 OMC25 的实用性,作者训练了若干直接作用于原子结构的最先进机器学习模型。这些模型学习从原子的位置与种类预测能量、力和应力。在对保留的 OMC25 数据进行评估时,它们达到了很低的预测误差,表明该数据集一致且信息量大。团队随后将模型推向外部测试,例如重现已知的晶体能量与体积,以及对同一分子的不同晶型(多晶型)进行排序。尽管训练数据基于一种量子方法,这些模型在基于稍微更先进方法的基准测试中也表现出竞争力,尤其擅长比较不同晶体堆积的相对稳定性。

这对未来材料意味着什么

对非专业读者来说,关键信息是 OMC25 提供了一个大型、经过精心策划的“练习场”,供机器学习模型在逼真的分子晶体上“练习”。研究人员无需对每一个新的晶体猜测都从头进行昂贵的量子计算,而可以越来越多地依赖在 OMC25 上训练的快速学习模型来筛选和优化结构。这可能加速寻找更好药物晶型、更高效的有机电子材料和改进的特种材料的过程。尽管该数据集侧重于某一类晶体并使用单一层次的量子理论,它仍奠定了一个强有力的基础。通过公开数据和示例模型,作者旨在催化更广泛的工作,以达到现代机器学习可提供的便捷与速度来预测与设计分子晶体。

引用: Gharakhanyan, V., Barroso-Luque, L., Yang, Y. et al. Open Molecular Crystals 2025 (OMC25) dataset and models. Sci Data 13, 354 (2026). https://doi.org/10.1038/s41597-026-06628-2

关键词: 分子晶体, 机器学习势, 材料数据库, 晶体结构预测, 量子化学