Clear Sky Science · zh

热力学一致的机器学习模型用于过量吉布斯自由能

· 返回目录

这对日常化学为何重要

现代生活依赖于各种液体混合物,从燃料和制冷剂到药物与绿色溶剂。安全且高效地设计这些混合物依赖于了解分子间的相互作用。然而,要对每一种可能的组合进行测量是不可能的。本文介绍了一种新的机器学习工具,称为 HANNA,它能够直接从数据中学习液体混合物的行为,同时仍然遵守基本的热力学定律。该工具有望提供更快、更广泛且更可靠的预测,以指导化工过程设计和材料发现。

Figure 1
Figure 1.

塑造液体混合物的隐含能量

当不同液体混合时,它们的分子会以细微的方式互相吸引或排斥。这些效应被包含在一个称为“过量吉布斯自由能”的量中,它表明混合物偏离理想行为的程度。只凭这一函数,工程师就能推导出关键性质,如活度系数,而活度系数决定了混合物是形成单一液相还是分成两相、蒸气与液相是否共存以及各组分如何在相间分配。不幸的是,过量吉布斯自由能无法直接测量,必须通过对汽液和平衡、液液平衡或放热/吸热效应的细致实验来推断,而至今只有极少数相关混合物被研究过。

传统预测工具的局限

几十年来,工程师依赖诸如 NRTL、UNIQUAC 及 UNIFAC 系列等模型来估算混合物行为。这些方法通过拟合实验数据的参数来近似描述相互作用,通常在二元体系上进行拟合。虽然功能强大,但存在重要限制:要预测一种新混合物,通常需要该混合物中每个二元子系统的参数,而对于新型化合物这些参数可能并不存在。即使是将分子分解为构件的基团模型(如 UNIFAC)也受限于固定的基团目录,对离子液体等复杂物种可能难以处理。此外,许多经典模型很难用一组参数同时精确描述汽液和平衡与液液平衡。

遵循物理定律的神经网络

HANNA 通过将现代神经网络与硬编码的热力学规则相结合来应对这些挑战。作为输入,它只需要组分的分子结构(以 SMILES 字符串编码)、温度和混合物组成。一个化学语言模型(ChemBERTa-2)首先将每个分子转换为数值指纹。这些指纹进入一个专门的网络架构,该架构被构建为遵守关键一致性要求:它满足 Gibbs–Duhem 关系、在某一组分变为纯态或趋于无限稀释时表现正确,并且不受组分排列顺序的影响。基于这些约束,HANNA 为混合物中的每一对二元组合预测过量吉布斯自由能,然后使用几何投影方案将这些预测扩展到多组分混合物,而无需引入额外的拟合参数。

Figure 2
Figure 2.

基于真实数据而非仅仅方程的训练

为了使 HANNA 具有广泛适用性,作者在一个极其庞大且多样的实验数据库上对其进行了训练。该数据库包括具有完整相组成的汽液数据、仅有总压的汽液数据、液液相分离数据、无限稀释下的活度系数以及过量焓,覆盖超过 80 万条数据点和 4000 多种不同化合物,包括离子液体及其他具有挑战性的物种。一项关键创新是一个替代求解器(surrogate solver),它模拟了用于检测和定位液液相分离的稳健热力学算法。该替代求解器是可微的,因此 HANNA 可以“端到端”地针对测得的相组成进行训练,而不必在学习循环中使用缓慢的迭代计算。额外的损失项促使 HANNA 识别与相分离相关的曲率,并产生在训练范围之外仍表现合理的平滑预测。

新模型的表现如何

训练完成后,HANNA 仅在训练时保留出的系统上进行了测试,并将其性能与领先的经典模型和机器学习模型进行了比较。在二元混合物上,它在预测活度系数、相组成和过量焓方面始终比广泛使用的改进 UNIFAC(多特蒙德版本)更准确,同时在识别液液不混溶区方面也更可靠。对于它在训练时从未见过的三元甚至四元混合物,HANNA 在仅依赖二元数据加几何投影的情况下仍保持竞争力或更优。它也优于若干最近的基于图的神经网络,这些模型要么缺乏严格的热力学一致性,要么仅限于诸如室温或无限稀释等特殊条件。

对科学和工业的意义

对非专业读者来说,核心信息是 HANNA 像一个信息量丰富且有物理根基的“神谕”一样预测液体混合物。仅凭化学式,它就能判断两种或多种液体是否相混、是否分层或会形成复杂的相行为,并且能够适用于广泛的温度范围。关键是,它在遵守基本热力学规则的同时进行预测,从而降低了不受约束的机器学习模型可能产生非物理结果的风险。由于完整模型和代码已公开发布并可通过网页界面访问,工程师可以将 HANNA 直接用于过程模拟和溶剂筛选。作者也指出了尚存的局限——例如在训练温度范围之外以及对强电解质的表现尚未经充分检验——但这项工作标志着朝向数据驱动且热力学一致的化工过程设计迈出的重要一步。

引用: Hoffmann, M., Specht, T., Göttl, Q. et al. Thermodynamically consistent machine learning model for excess Gibbs energy. Nat Commun 17, 3485 (2026). https://doi.org/10.1038/s41467-026-71430-y

关键词: 液体混合物, 热力学, 机器学习, 过量吉布斯自由能, 相平衡