Clear Sky Science · ja

eXtreme Gradient Boostingに基づく機械学習を用いた有機溶媒中の医薬品溶解度予測モデルの開発と評価

· 一覧に戻る

なぜ薬を溶かすことが重要なのか

錠剤が体内に入ると、効力を発揮する前にまず溶解する必要があります。有効成分が液体中でどれだけ容易に溶けるかは、医薬品の製造方法、安定性、効果に影響します。多様な液体や温度でこの「溶解度」を測定することは時間とコストがかかります。本研究は、機械学習という現代的なデータ手法を用い、少量で入手しやすい情報から薬剤様化合物が一般的な有機溶媒にどの程度溶けるかを迅速に推定できるかを検討しています。

結晶成長に適した溶媒を選ぶ

医薬品製造では、活性成分の結晶を有機溶媒から成長させることがよく行われます。溶媒は回収される固体量を決めるだけでなく、結晶の大きさや形状を左右し、それが薬剤の性質に影響を与えます。従来、化学者は多くの実験を行うか、複雑な熱力学方程式を用いて溶解度を予測してきました。これらの方法は精度が高いこともありますが、多くの場合、多数のフィッティングパラメータや初期段階では入手困難な詳細な分子データを必要とします。本研究の著者らは、代わりに、慎重に設計した機械学習モデルが、単純で物理的に意味のある入力を用いて溶解度の主要な傾向を捉えられるかを問います。

Figure 1. コンパクトな機械学習モデルが、基本的な薬物と溶媒の特性を多種の有機液体における溶解度と結び付ける仕組み。
Figure 1. コンパクトな機械学習モデルが、基本的な薬物と溶媒の特性を多種の有機液体における溶解度と結び付ける仕組み。

物理的洞察を取り入れたコンパクトなデータ駆動モデル

研究チームはeXtreme Gradient Boosting(XGBoost)と呼ばれる一般的な機械学習手法を用いて溶解度予測モデルを構築しました。彼らは4種類の薬剤様分子について9種の一般的な有機溶媒中、幅広い温度範囲で公表された溶解度データを収集し、合計224のデータ点を得ました。アルゴリズムに任意の記述子を大量に与えるのではなく、化学者が既に理解している10の特徴を選びました:融点、融解熱、比熱、よく知られた溶解度パラメータなどの固体の特性、誘電率や沸点による溶媒の極性を表す基本的な液体特性、温度そのもの、そして固体と液体の名称を単純に符号化したものです。多くの固体が温まるとよりよく溶けるという事実を反映するため、予測が温度とともに増加するようにモデルの挙動を制約する規則を組み込み、物理的に妥当な振る舞いを保証しました。

モデルは実測値とどれほど一致するか

交差検証でモデルを調整した後、著者らは予測値が実測値にどれほど近いかを検証しました。溶解度が数桁にわたって変化するため、測定値と予測値の対数を比較して性能を評価しました。訓練と検証に用いた4化合物について、モデルは非常に小さな平均誤差と高い相関でデータを再現し、多様な溶媒環境における温度依存の溶解度を確実に記述できることを示しました。重要なのは、より簡単な式では捕らえにくい挙動を示す極めて溶けにくい化合物(リスペリドン)についてもモデルの精度が保たれた点です。

Figure 2. 入力、機械学習モデル、および温度上昇に伴う測定値と予測値の一致曲線を段階的に示す視点。
Figure 2. 入力、機械学習モデル、および温度上昇に伴う測定値と予測値の一致曲線を段階的に示す視点。

まったく新しい化合物を予測する

重要な問いは、モデルがこれまで見たことのない有効成分を扱えるかどうかでした。これを試すために、研究者らは第5の化合物ブタミベンの全データ50点を訓練から除外し、訓練完了後にこれらを評価に用いました。この真の予測課題では誤差が訓練で見たデータより大きくなりましたが、それでも多くの溶媒について典型的な実験的不確実性と比べて同等の範囲にとどまりました。広く用いられる準予測的熱力学手法であるFlory–Hugginsや温度依存NRTL–SACと比較すると、XGBoostモデルは一貫して全体的に小さい誤差を示し、特に最も難しい系で良好に機能しました。

将来の創薬にとっての意味

専門外の読者にとっての主要な結論は、比較的小規模で物理的に意味のある特徴を取り入れた機械学習モデルが、一般的な有機溶媒中で薬剤様分子が温度範囲にわたってどれほど溶けるかを信頼して推定できるということです。これは、従来の手法で必要とされがちな大規模なパラメータフィッティングを要さず、測定可能な性質の控えめなセットで達成されます。著者らは選択した記述子の洗練やより広範なデータの追加が性能向上につながると述べていますが、本研究はこうしたモデルが溶媒スクリーニングやプロセス設計をサポートし、詳細な実験を行う前に化学者が有望な候補を絞り込むのに役立つことを示しています。

引用: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w

キーワード: 薬物溶解度, 有機溶媒, 機械学習, XGBoost, 結晶化