Clear Sky Science · tr

Pliable lasso'da bilinmeyen değiştiren değişkenleri tahmin etmek için gözetimli öğrenme

· Dizine geri dön

Tahminler için gizli etkilerin önemi

Kredi kartı dolandırıcılığını tespit etmekten hastalık riskini öngörmeye kadar bilgisayarlar artık günlük yaşamın birçok alanına dokunan tahminler yapıyor. Ancak gerçek dünya verileri karmaşıktır: yaş veya sıcaklık gibi aynı girdi, cinsiyet, zaman dilimi veya laboratuvar koşulları gibi gizli bağlama bağlı olarak farklı önem taşıyabilir. Bu makale, geçmiş veriler için bilinen ancak yeni vakalarda eksik olan bu “görünmez” etkilerle nasıl başa çıkılacağını araştırıyor ve farklı makine öğrenimi araçlarını birleştirmenin hem doğru hem de yorumlanması daha kolay tahminlere nasıl yol açabileceğini gösteriyor.

Girdiler, gizli bağlam ve sonuçları birbirine bağlamak

Çalışma, pliable lasso adı verilen güçlü bir regresyon yöntemine odaklanıyor. Basitçe söylemek gerekirse, bu yöntem bir sonucu (örneğin kan basıncı) birçok özellikten (yaş veya protein düzeyleri gibi) tahmin ederken, ilişkileri büküp yeniden şekillendirmesine izin veren ayrı bir “değiştirici” değişkenler kümesine de olanak tanır. Örneğin, egzersizin kan basıncı üzerindeki etkisi cinsiyete göre farklılık gösterebilir. Pliable lasso, bu bağlama bağımlı etkileri yakalamak için tasarlanmıştır ve modelin gereksiz yere karmaşık hale gelmesini otomatik olarak önler. Bunu, veriler daha karmaşık etkileşimleri açıkça desteklemedikçe basit desenleri tercih ederek yapar.

Eksik bağlamı ele almanın üç yolu

Yazarlar, bu değiştirici değişkenler için üç yaygın durumu tanımlıyor. En kolay “bilinen-bilinen” durumda, değiştiriciler hem eğitim hem de gelecekteki veriler için kaydedilmiştir; böylece pliable lasso bir kez uyarlanıp doğrudan uygulanabilir. Daha zorlu “bilinen-bilinmeyen” durumda, değiştiriciler yalnızca eğitim verilerinde mevcuttur ve yeni gözlemler için tahmin edilmelidir. En zor “bilinmeyen-bilinmeyen” durumda ise değiştiriciler hiç gözlemlenmez ve benzer bireylerin kümeleme gibi dolaylı yollarla yaklaştırılması gerekir. Bu çalışma, pratik açıdan önemli olan orta duruma odaklanıyor: değiştiriciler eski veriler için biliniyor, ancak pliable lasso kullanıma girmeden önce yeni veriler için tahmin edilmelidir.

Figure 1
Figure 1.

Birden çok öğrenme yöntemini yan yana test etmek

Eksik değiştiricileri tahmin etmek için yazarlar sekiz gözetimli öğrenme algoritmasını sistematik olarak karşılaştırıyor: Random Forests, XGBoost, karar ağaçları, destek vektör makineleri, k-en yakın komşu, yapay sinir ağları, Lasso ve Elastic Net dahil. İki adımı aynı anda değerlendiriyorlar: ilk olarak her yöntemin değiştiricileri ne kadar iyi sınıflandırdığı; ikinci olarak bu tahmin edilmiş değiştiriciler pliable lasso'ya yerleştirildiğinde nihai sonucu pipeline’ın ne kadar iyi tahmin ettiği. Testler hem dikkatle tasarlanmış simüle edilmiş verileri hem de iki gerçek veri kümesini kapsıyor: fare beyinlerindeki protein ifadesi ve süperiletkenlerdeki malzeme özellikleri. Aşırı iyimser sonuçları ve eğitim ile test setleri arasında bilgi sızıntısını önlemek için titiz çapraz doğrulama ve dikkatli hiperparametre ayarı kullanılıyor.

Ne işe yarıyor ve neden

Sonuçlar ilginç bir gerilimi ortaya koyuyor. XGBoost, Random Forest ve tekil karar ağaçları gibi ağaç tabanlı topluluk yöntemleri gizli değiştiricileri sınıflandırmada genellikle neredeyse mükemmele yakın başarı gösteriyor. Ancak bu yöntemler, değiştirici tahminleri pliable lasso'ya verildiğinde her zaman en iyi nihai sonuç tahminlerini sağlamıyor. Bunun yerine, Lasso ve Elastic Net gibi daha basit, düzenlileştirilmiş lineer modeller genellikle daha doğru ve daha stabil sonuç tahminleri üretiyor; bu, değiştirici sınıflandırmaları biraz daha az kusursuz olsa bile geçerli oluyor. Yazarlar, bunun nedeninin ağaç tabanlı yöntemlerin çok keskin ama ara sıra yanlış değiştirici etiketleri üretip pliable lasso’daki hassas etkileşim yapısını bozabilmesi, oysa düzenlileştirilmiş lineer yöntemlerin daha yumuşak, model varsayımlarıyla daha uyumlu tahminler vermesi olduğunu savunuyor.

Figure 2
Figure 2.

Pratik bir uygulanabilir reçete

Önemli bağlamsal faktörlerin yalnızca kısmen gözlemlendiği ortamlarda güçlü ve yorumlanabilir tahminler isteyen uygulayıcılar için çalışma hibrit bir strateji öneriyor. Önce, eksik değiştiricileri tahmin etmek için karmaşık desenleri bulmadaki gücünden yararlanmak üzere güçlü ağaç tabanlı modelleri kullanın. Ardından, bu tahmin edilmiş değiştiricileri orijinal özelliklerle birlikte pliable lasso modeline yerleştirin ve ideal olarak nihai regresyon adımı için Lasso veya Elastic Net ile eşleştirin. Bu iki aşamalı yaklaşım, gizli yapının esnek keşfini ve sonuçları tahmin etmek için disiplinli, şeffaf bir modeli harmanlayarak her iki dünyanın en iyisini kullanır.

Atıf: Hawrami, Z.S.M., Cengiz, M.A. & Dünder, E. Supervised learning for predicting unknown modifying variables in pliable lasso. Sci Rep 16, 10200 (2026). https://doi.org/10.1038/s41598-026-36854-y

Anahtar kelimeler: pliable lasso, değiştirici değişkenler, gözetimli öğrenme, hibrit modelleme, etkileşim etkileri