Clear Sky Science · ja
さまざまな温度での溶媒二混合物における有機化合物の溶解度値データセット
日常の化学においてなぜ重要か
医薬品からプラスチック、塗料に至るまで、私たちが頼る多くの製品は物質が液体にどれだけ溶けるかに依存しています。実際の産業環境では、研究者が単一の純溶媒だけを扱うことは稀で、固体がどれだけ溶解するかを微調整するために二つの液体を混合することが多いです。新しい化合物と溶媒の組合せごとにこれを測定するのは遅く手間のかかる作業です。本論文はMixtureSolDBを導入します。これは800超の有機化合物が数百種類の二元溶媒混合物で、広い温度範囲にわたりどのように溶けるかを捉えた大規模で精査された実験データのコレクションです。このような資源は、医薬品開発、材料設計、グリーン製造の研究を加速することを目的としています。

溶解の大きな地図
著者らは、252〜383ケルビンの範囲で、810の有機化合物に対する750の異なる二元溶媒混合物における175,166件の個別溶解度測定値を収集しました。これらは溶質と混合溶媒の3,001の個別組合せにわたります。各データ点は、特定の混合比と温度である化合物がどれだけ溶解するかを記録しています。多くの系は水とアルコール、アセトン、アセトニトリルなどの有機液体の混合を含み、こうした混合物が実験室や産業で頻繁に用いられていることを反映しています。1,115件の査読済み論文から情報を引き出すことで、著者らは既存の公開データセットを大幅に拡張し、研究者に対して溶解挙動のより広く多様な像を提供しています。
データ収集とクリーニングの方法
このデータセットを作成するために、チームはまずタイトルや要旨に「solubility + binary」や「solubility + mixture」といった語句を含む論文を科学誌から検索しました。5,775件の記録を出発点として、重複や利用可能なデータのない論文を除外し、最終的に1,115件の適切な論文から手作業で数値を抽出しました。対象は有機化合物、有機塩、定義されたソレートで、常圧下かつ添加物のない条件に限定し、同質多形が関与する場合は最も安定な固体形を確保しました。溶質と溶媒の分子構造はSMILESと呼ばれる標準のテキスト形式に変換され、溶媒の命名規則は同義語による混乱を避けるために統一されました。
システム間で数値を比較可能にする
生の溶解度データはモル分率や溶媒あたりのグラム数などさまざまな報告形式があり、混合物中の各溶媒の割合も質量比やモル比で示されることがあります。データを一貫性のあるモデル入力にするため、著者らはすべての測定値を標準形式に変換しました。これには、100グラムの溶媒あたりの溶質グラム数という質量ベースの値とその10進対数(データ駆動型溶解度研究で一般的に選ばれる指標)が含まれます。これらの変換にはオープンソースの化学ソフトウェアで計算した分子量を用い、ポリエチレングリコール系溶媒のような特殊な場合も考慮しました。最終テーブルには温度、溶媒組成、公開データベースの識別子、米国食品医薬品局(FDA)により薬として承認されているかどうかなどの詳細なメタデータも記録されています。

信頼性の確認とデータセットの探索
出典論文はすでに査読を受けているとはいえ、大量の数値を手作業で転記する際には誤りが入り込む可能性があります。このリスクを減らすため、2名の訓練を受けた化学者が独立してデータを抽出し、3人目がそれらを比較して統合しました。続いて、自動化されたチェックを一連実行し、モル分率が1を超えるような不可能な値や溶媒分率が合計で正しくないケースを探し、既知の沸点と温度を照合しました。また、デジタルオブジェクト識別子(DOI)を用いて文献参照を検証し、同名が異なる構造を指す場合やその逆の不整合を解決しました。完成したデータセットは、溶媒の沸点の小さな表とともに、カンマ区切りファイルとして公開され、化合物名や構造で検索したり、承認薬に絞って閲覧できるインタラクティブなオンラインツールから参照可能です。
将来のツールにとっての意義
Chemistやデータサイエンティストにとって、MixtureSolDBは混合溶媒中で化合物がどれだけ溶けるかを新たな実験を行わずに予測するモデルを構築・検証するためのベンチマーク資源を提供します。多数のデータ点と多様な化合物・溶媒ペアは、機械学習手法が限定的な事例に過度適合するのではなく、より一般的なパターンを学習するのに役立ちます。著者らは比較対象として最も適した指標としてある対数尺度を推奨していますが、実験室での実務的な計画のためにより実用的な質量ベースの値も提供しています。最終的に、このデータセットは研究者が溶媒混合物をより速く、より情報に基づいて選択できるようにすることで、反応設計、結晶化プロセス、製剤設計の改善に貢献するはずです。
引用: Malikov, D., Krasnov, L., Kiseleva, M. et al. Dataset of solubility values for organic compounds in binary mixtures of solvents at various temperatures. Sci Data 13, 727 (2026). https://doi.org/10.1038/s41597-026-07047-z
キーワード: 溶解度, 二元溶媒混合物, 機械学習データセット, 有機化合物, ケモインフォマティクス