Clear Sky Science · zh

不同温度下溶剂二元混合物中有机化合物溶解度值的数据集

· 返回目录

这对日常化学为什么重要

从药物到塑料和涂料,许多我们依赖的产品都取决于某种物质在液体中的溶解程度。在实际工业环境中,科学家很少只使用单一纯溶剂;他们常常混合两种液体来微调固体的溶解量。对每一种新化合物和每一对溶剂进行测量既缓慢又费力。本文介绍了 MixtureSolDB,这是一个经过仔细校验的大型实验数据集合,记录了 800 多种有机化合物在数百种不同二元溶剂混合物中、在宽温度范围内的溶解行为。这样的资源旨在加速药物开发、材料设计和绿色制造方面的研究。

Figure 1. 大量分子在多种混合溶剂中的表现汇集为一幅大图,展示每种化合物的溶解情况。
Figure 1. 大量分子在多种混合溶剂中的表现汇集为一幅大图,展示每种化合物的溶解情况。

一张大型的溶解行为地图

作者收集了 175,166 条单独的溶解度测量数据,涵盖 810 种有机化合物在 750 种不同二元溶剂混合物中的情况,总计 3,001 个不同的溶质与混合溶剂组合,温度范围为 252 至 383 开尔文。每个数据点记录了在特定混合比例和温度下某化合物在给定溶剂对中的可溶解量。许多体系包括水与有机溶剂(如醇类、丙酮或乙腈)的混合物,反映出此类混合物在实验室和工业中的常见使用。通过引用 1,115 篇同行评审文章,作者在现有公开数据集之上大幅扩展,为研究者提供了更广泛、更丰富的溶解度行为图景。

数据的收集与清洗方法

为组建该数据集,团队首先在科学期刊中检索标题或摘要中包含“溶解度 + 二元”或“溶解度 + 混合”等短语的文章。从 5,775 条记录出发,他们去除重复项和无可用数据的论文,随后手工从 1,115 篇合适的文章中提取数值。他们聚焦于有机化合物、有机盐和已定义的溶合物,在常压且无额外添加剂的条件下,遇到多晶型时以最稳定的固态形式为准。溶质和溶剂的分子结构被转换为一种称为 SMILES 的标准文本格式,溶剂命名则统一为一种命名约定以避免同义词带来的混淆。

使不同体系的数据可比

原始溶解度数据可能以多种方式报告,例如摩尔分数或每量溶剂的克数,混合物中每种溶剂的份额也可按质量或摩尔给出。为使数据一致并便于建模,作者将所有测量值转换为若干标准形式,包括以质量为基础、表示为每 100 克溶剂中溶质克数的值及其十进对数,这是数据驱动溶解度研究中常用的选择。他们使用开源化学软件计算的分子量来完成这些转换,包括对聚乙二醇类溶剂等特殊情况的处理。最终表格还记录了详细元数据:温度、溶剂对组成、公共数据库的标识符,以及该化合物是否被美国食品药品监督管理局批准为药物等信息。

Figure 2. 逐步改变两种溶剂的比例,以展示分子溶解度如何逐步上升或下降。
Figure 2. 逐步改变两种溶剂的比例,以展示分子溶解度如何逐步上升或下降。

可靠性检查与数据集探索

尽管来源论文已通过同行评审,但大量手工抄录数字仍可能引入错误。为降低风险,两名受训化学家独立提取数据,第三人对两者的结果进行比对与合并。团队随后运行了一系列自动化检查,寻找不可能的数值,例如大于 1 的摩尔分数或不正确相加的溶剂份额,并将温度与已知沸点交叉核对。他们还利用数字对象标识符核实文献引用,并解决了同一名称对应不同结构或反之的不一致问题。最终得到的数据集以及一份较小的溶剂沸点表作为简单的逗号分隔文件公开提供,并可通过一个交互式在线工具浏览,用户可以按化合物名称或结构搜索,并聚焦获批药物。

对未来工具的意义

对于化学家和数据科学家而言,MixtureSolDB 提供了一个用于构建和测试预测化合物在混合溶剂中可溶解量的基准资源,减少每次都需做新实验的需要。大量数据点以及多样的化合物和溶剂对有助于机器学习方法学习更通用的模式,而不是对狭窄案例过拟合。作者推荐一种对数刻度衡量作为比较不同体系的最合适目标,但同时也提供了更实用的质量基值以用于实验室的实际规划。最终,该数据集应能帮助研究者更快、更有依据地选择溶剂混合物,从而设计更好的反应、结晶工艺和配方。

引用: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z

关键词: 溶解度, 二元溶剂混合物, 机器学习数据集, 有机化合物, 化学信息学