Clear Sky Science · tr
eXtreme Gradient Boosting tabanlı makine öğrenmesi kullanarak organik çözücülerde ilaçların çözünürlüğünü etkili biçimde tahmin etmeye yönelik model geliştirme ve değerlendirme
İlaçların çözünmesi neden gerçekten önemli
Bir hap vücuda girdiğinde, işe yaraması için önce çözünmesi gerekir. Etkin maddenin bir sıvıda ne kadar kolay çözünebileceği, bir ilacın nasıl üretildiğini, kararlılığını ve etkinliğini etkiler. Bu "çözünürlüğü" birçok farklı sıvı ve sıcaklıkta ölçmek yavaş ve maliyetlidir. Bu çalışma, modern bir veri aracı olan makine öğrenmesinin, yalnızca kolayca elde edilebilen az sayıda bilgi kullanarak ilaç benzeri bileşiklerin yaygın organik sıvılarda ne kadar iyi çözündüğünü bilim insanlarının hızla tahmin etmelerine nasıl yardımcı olabileceğini araştırıyor.
Kristal üretimi için doğru sıvıyı seçmek
İlaç üretiminde, üreticiler sıklıkla etkin bir maddenin kristallerini bir organik sıvıdan büyütürler. Sıvı yalnızca geri elde edilen katı miktarını kontrol etmez; aynı zamanda kristallerin boyutunu ve formunu şekillendirir ve bu da ilacın davranışını etkileyebilir. Geleneksel olarak kimyagerler çok sayıda deney yapar veya çözünürlüğü tahmin etmek için karmaşık termodinamik denklemler kullanır. Bu yerleşik yöntemler doğru olabilir, ancak genellikle çok sayıda uyarlanmış parametre veya erken geliştirmede mevcut olmayan ayrıntılı moleküler veriler gerektirir. Bu çalışmanın yazarları ise dikkatle tasarlanmış bir makine öğrenmesi modelinin, basit ve fiziksel olarak anlamlı girdilerle çözünürlükteki temel eğilimleri yakalayıp yakalayamayacağını sorguluyorlar.

Fiziksel sezgiyle desteklenen kompakt veri odaklı model
Ekip, eXtreme Gradient Boosting (XGBoost) olarak bilinen popüler bir makine öğrenmesi yöntemini kullanarak bir çözünürlük tahmin modeli geliştirdi. Dört ilaç benzeri molekülün dokuz yaygın organik sıvıdaki yayınlanmış çözünürlük verilerini, geniş bir sıcaklık aralığında toplayarak toplamda 224 veri noktası elde ettiler. Algoritmaya rastgele betimleyiciler vermek yerine, kimyagerlerin zaten anladığı on özelliği seçtiler: katının erime sıcaklığı, erime ısısı, ısı kapasitesi ve bilinen bir çözünürlük parametresi gibi özellikleri; sıvının dielektrik sabitiyle ölçülen kutupsallık ve kaynama sıcaklığı gibi temel sıvı özellikleri; ayrıca sıcaklık ve katı ile sıvı isimlerinin basit kodlamaları. Çoğu katının ısıtıldığında daha iyi çözüldüğünü yansıtmak için, modelin tahminlerinin sıcaklıkla artmasını zorunlu kılan bir kural ekleyerek fiziksel olarak makul davranış sağladılar.
Modelin gerçek ölçümlerle uyumu ne kadar iyi
Modeli çapraz doğrulama ile ayarladıktan sonra yazarlar tahminlerin ölçülen değerlerle ne kadar örtüştüğünü test ettiler. Performansı, ölçülen ve tahmin edilen çözünürlüklerin logaritmaları karşılaştırılarak değerlendirdiler; bu uygun bir yaklaşımdı çünkü çözünürlükler birkaç mertebe genişliğinde değişiyordu. Eğitme ve test için kullanılan dört bileşik için model, verileri çok küçük ortalama hatalar ve yüksek korelasyonla yeniden üretti; bu da modelin birçok sıvı ortamı boyunca sıcaklığa bağlı çözünürlüğü güvenilir şekilde tanımlayabildiğini gösteriyor. Önemli olarak, model çok kötü çözünen bir bileşik olan risperidon için dahi doğru kaldı; risperidonun davranışı daha basit denklemlerle yakalanmasıyla ünlü şekilde zordur.

Tamamen yeni bir bileşiği tahmin etmek
Esas soru, modelin daha önce hiç görmediği bir etkin maddeyle başa çıkıp çıkamayacağıydı. Bunu test etmek için araştırmacılar beşinci bileşik olan butambene ait tüm verileri ayırdılar ve bu 50 ölçümü yalnızca eğitimin tamamlanmasından sonra kullandılar. Modelin hataları, gerçek tahmin görevinde daha önce gördüğü verilere kıyasla daha büyüktü, ancak yine de birçok test edilen sıvı için tipik deneysel belirsizliğe karşılık gelen bir aralıkta kaldı. XGBoost modeli, Flory–Huggins ve sıcaklığa bağlı NRTL-SAC gibi yaygın kullanılan iki yarı-kestirimci termodinamik yöntemle karşılaştırıldığında genellikle daha küçük hatalar üretti ve özellikle en zor sistemlerde iyi performans gösterdi.
Gelecek ilaç geliştirme için bunun anlamı
Uzman olmayanlar için ana çıkarım, nispeten küçük ve fiziksel olarak bilgilendirilmiş bir makine öğrenmesi modelinin, ölçülebilir az sayıda özellik kullanarak ilaç benzeri moleküllerin yaygın organik sıvılarda farklı sıcaklıklardaki çözünürlüğünü güvenilir şekilde tahmin edebilmesidir. Bu, geleneksel yaklaşımlarda sıkça gereken yoğun parametre ayarlamaya ihtiyaç duymadan yapılır. Yazarlar seçilen betimleyicilerin daha da rafine edilmesi ve daha geniş verilerin performansı artıracağını not etse de, çalışma böyle modellerin zaten çözücü seçimi ve süreç tasarımını destekleyebileceğini, kimyagerlerin ayrıntılı laboratuvar çalışmalarına başlamadan önce umut verici seçenekleri daraltmalarına yardımcı olabileceğini gösteriyor.
Atıf: Valavi, M., Assareh, M., Khoshsima, A. et al. Development and evaluation of an effective solubility prediction model for pharmaceuticals in organic solvents using machine learning based on eXtreme Gradient Boosting. Sci Rep 16, 16592 (2026). https://doi.org/10.1038/s41598-026-53038-w
Anahtar kelimeler: ilaç çözünürlüğü, organik çözücüler, makine öğrenmesi, XGBoost, kristalleşme