Clear Sky Science · zh

一种用于预测渗透系数并推导烷基铵盐活度系数的机器学习方法

· 返回目录

日常化学品中的隐含复杂性

从衣物柔顺剂和护发素到消毒湿巾和漱口水,有一类称为季铵盐的化学物质——通常简称“Quats”——默默驱动着我们依赖的许多产品。它们帮助杀灭病菌、软化衣物并加速工业反应。但准确预测这些盐在水中如何表现一直颇为困难,这限制了我们设计更安全、更环保配方的效率。该研究展示了现代机器学习如何从已有测量数据中学习,以比传统模型更灵活且在许多情况下更准确地预测这些行为。

Figure 1
Figure 1.

这些盐为何重要

季铵盐是带正电的分子,周围环绕着富碳的“尾链”。这种特殊形状使它们能同时承担多重功能:附着油性污垢、黏附在织物或头发等表面,并破坏微生物膜,使其成为强效的消毒剂和表面活性剂。它们还用作相转移催化剂,像摆渡者一样将反应离子从水相带到通常不易进入的类油溶剂中。发生在水油界面的这种摆渡作用,能显著加速用于药物、聚合物和精细化学品制造的化学反应。

为何难以预测它们的行为

要设计新的季铵盐或调整现有化合物,化学家需要了解它们在溶液中的表现——它们与水和其他溶解离子相互作用的强弱。两个关键指标是渗透系数,它反映盐如何影响水通过膜的趋向,以及活度系数,它表示溶质与理想完全混合溶液相比的“有效性”。传统上,这些数值要么通过繁复的实验获得,要么通过诸如电解质‑NRTL和扩展UNIQUAC等复杂物理模型计算,这些模型需要大量拟合参数且难以推广到新分子。

教计算机“读懂”分子

研究者走了一条不同的路:他们询问是否可以让计算机直接从现有数据中学习季铵盐结构与渗透行为之间的关系。他们从文献中收集了1654条针对52种不同季铵盐的渗透系数测量数据。每个分子用SMILES表示法描述——这是一种字符串表示,编码了碳、氧原子数量、苯环的存在、分支情况以及带正电氮基类型,以及伴随的阴离子(如氯化物、溴化物或硝酸盐)。这些结构描述符,加上盐浓度,作为若干用Python实现的监督式机器学习算法的输入。

寻找最可靠的预测器

团队训练了七种不同的算法,包括线性回归、决策树、随机森林、支持向量机、梯度提升、k近邻和高斯过程,使用70%的数据进行训练并在剩余30%上测试。团队还采用了更严格的验证方案,即完全将某一盐的数据留出,以检验模型对真正未见化合物的外推能力。线性回归表现不佳,无法捕捉重要的非线性趋势。基于树的方法对训练数据拟合极佳,但产生略显参差的预测并在新盐上丢失了一些准确性。高斯过程模型找到了最佳平衡:它为渗透系数提供了平滑、物理上合理的曲线,并在总体上实现了约5%的平均绝对百分比误差,在最严苛的测试中优于其他机器学习方法。

Figure 2
Figure 2.

从渗透行为到有用的设计数值

在选定最佳模型后,研究者使用标准热力学关系将其预测的渗透系数转换为活度系数。将这些活度系数与基于实验和既有物理模型推导的数值比较时,机器学习方法在许多个别季铵盐上往往能匹配或优于它们。尽管其对全部物质的平均误差略高于某些专用模型,但它具有一个关键优势:因为它由结构描述符驱动而非针对特定盐的拟合参数,只要新季铵盐的结构与训练集中的相似,就可以将其应用于从未在实验室测量过的化合物。

这对产品与工艺意味着什么

对非专业读者而言,信息是计算机现在可以“阅读”分子的紧凑文本描述,并凭借从以往数据中学到的模式,以令人印象深刻的精度预测这些分子在水中的表现。这为更快、更便宜地筛选用于消毒剂、清洁剂、个人护理产品和工业催化剂的新季铵盐打开了大门,而无需对每个候选物进行耗时的全面实验。目前的模型只是第一步,作者指出更丰富的分子指纹和更新的算法可能进一步提升性能。尽管如此,该研究展示了数据驱动工具如何补充传统化学,帮助工程师通过探索实验室逐一测试难以实现的化学可能性,设计更有效并可能更安全的配方。

引用: Chawuthai, R., Murathathunyaluk, S., Saengsuradech, S. et al. A machine learning approach for predicting osmotic coefficients and deriving activity coefficients in alkyl ammonium salts. Sci Rep 16, 5969 (2026). https://doi.org/10.1038/s41598-026-36758-x

关键词: 季铵盐, 相转移催化, 渗透系数, 活度系数, 化学中的机器学习