Clear Sky Science · tr

ClinicRealm: türetilmeyen klinik tahmin görevleri için geleneksel makine öğrenmesiyle büyük dil modellerini yeniden değerlendirmek

2026-04-08 · Dizine geri dön

Neden daha akıllı hastane tahminleri önemli

Hastaneler her gün hastalarına ilişkin kısa doktor notlarından uzun laboratuvar sonuçları ve hayati bulgular listelerine kadar büyük miktarda dijital bilgi toplar. Bu verinin içinde kimlerin düzeleceği, kimin yakında yeniden hastaneye dönebileceği ve kimin ciddi risk altında olduğu gibi ipuçları saklıdır. Bu ipuçlarını okumak için doğru yapay zekâ (YZ) türünü seçmek artık yalnızca teknik bir soru değil—hastaların ne kadar hızlı ve adil biçimde yardım alacağını şekillendirebilir. Bu çalışma zamana uygun bir soruyu gündeme getiriyor: bugün sohbet tarzı güçlü YZ sistemleri olarak bilinen büyük dil modelleri, uzun süredir tıbbi tahminlerin iş atı olan, özenle uyarlanmış algoritmalarla gerçekten rekabet edebilir veya onları geride bırakabilir mi?

Yeni tür tıbbi YZ için yeni testler

Araştırmacılar ClinicRealm adını verdikleri geniş bir kıyaslama oluşturup üç model ailesini yan yana karşılaştırdılar: geleneksel makine öğrenmesi ve derin öğrenme sistemleri, önceki metne odaklı modeller ve modern büyük dil modelleri. Bu araçları iki ana hastane veri türünde değerlendirdiler. Birincisi, kabul ve taburcu notları gibi yapılandırılmamış metinler; ikincisi ise laboratuvar değerleri ve zaman damgalı hayati bulgular gibi sayılardan oluşan yapılandırılmış elektronik sağlık kayıtları tabloları. Ekip, bir hastanın yatışı sırasında ölüp ölmediği, 30 gün içinde yeniden yatış yapıp yapmayacağı veya hastanede ne kadar kalabileceği gibi hastaneler için pratik önemi olan sorulara odaklandı.

Tahminde kelimeler sayılardan üstün olduğunda

Doktor ve hemşire notlarına dayanan görevler için çarpıcı bir desen ortaya çıktı. Yıllarca tıbbi kayıtlara ince ayar yapılmış uzmanlaşmış metin modellerinin bu tür notlardan sonuç tahmini için en iyi seçenek olduğu düşünülüyordu. Ancak ClinicRealm, hastane verileri üzerinde ek eğitim yapılmadan “sıfır atış” (zero-shot) kullanılan en son büyük dil modellerinin artık bu uzmanlaşmış sistemleri geniş bir farkla geride bıraktığını gösteriyor. Hem ileriye dönük risk tahminlerinde hem de sonradan belge sınıflandırmasında GPT-5 ve DeepSeek varyantları gibi gelişmiş modeller çok yüksek doğruluk elde etti. Bu, ham klinik metni onlara verip tahmin istemenin, daha eski yaklaşımların aylar süren ince ayarından daha iyi sonuç verebileceği anlamına geliyor. Dikkat çekici biçimde, birkaç açık kaynak model mülkiyete ait olanların performansına eşit veya onu aşan sonuçlar verdi; bu da güçlü araçları veriyi kurum içinde tutmak zorunda olan hastaneler için daha erişilebilir kılıyor.

Sayılarsa klasik araçları ödüllendiriyor—ama her zaman değil

Yapılandırılmış elektronik sağlık kayıtları için hikâye daha nüanslı. Burada dikkatle eğitilmiş geleneksel modeller ve uzmanlaşmış derin öğrenme sistemleri, büyük miktarda veriden öğrenme imkânı bulduklarında hâlâ öne çıkıyor. Zaman içinde laboratuvar değerleri ve hayati bulgulardaki desenleri yakalamada özellikle iyiler. Ancak nadir hastalıklar veya yeni salgınlar gibi yalnızca az sayıda hasta örneğinin mevcut olduğu durumlarda—ki bu sık rastlanan bir durumdur—modern dil modelleri beklenmedik bir güç gösteriyor. Bazı testlerde, zekice tasarlanmış bir istem (prompt) ve birkaç örnekle çalışan bir büyük dil modeli, aynı sınırlı veriyle eğitilmiş geleneksel modellerle eşit veya onları geride bırakacak performans sergiledi. Tablo verilerini ve metni aynı anda dil modellerine dökmenin performansı otomatik olarak artırmadığını gösteren girişimler, birden fazla veri kaynağını birleştirmenin hâlâ bedava bir yükseltme değil, hassas bir tasarım problemi olduğunu ortaya koydu.

YZ’nin tıbbi muhakemesine bakış

Bir risk skoruna körü körüne güvenmek güvensiz olduğundan, ekip ayrıca beş klinisyene dil modellerinin tahminleriyle birlikte ürettiği açıklamaları derecelendirmelerini istedi. Genel olarak uzmanlar, bu anlatıları özellikle modeller zengin anlatı notlarından çalıştığında makul derecede doğru, eksiksiz ve klinik açıdan faydalı buldu. Yine de önemli zayıflıklar görüldü. Bazı yanlış alarmlarda modeller, kayıttaki bilgileri uydurarak veya yanlış okuyarak yüksek rismi gerekçelendirdi. Kaçırılan risk vakalarında ise sıklıkla ilgili bulguları tanıdılar ama bunları doğru ağırlıkta değerlendiremediler; bu durum basit veri çıkarım hatalarından ziyade sığ muhakeme yansıttı. Tahminler doğru olsa bile kusurlu muhakemenin izleri kaldı; bu da yalnızca doğruluğun güvenilir klinik destek sağlamak için yeterli olmadığını vurguluyor.

Adalet, sınırlamalar ve gelecek

Araştırmacılar ayrıca yaş, cinsiyet ve ırk bazında adaleti incelediler. Cesaret verici biçimde, sıfır atış modunda dikkatle yönlendirilen son teknoloji dil modelleri, bazen yoğun şekilde eğitilmiş geleneksel sistemlerden daha dengeli performans gösterdi; bu tür geleneksel sistemler mevcut veri önyargılarını güçlendirebiliyordu. Ancak modelleri belirli görevlere uyarlamak bazen yeniden eşitsizlikleri gündeme getirdi ve hiçbir yöntem mükemmel derecede adil değildi. Yazarlar, herhangi bir uygulamanın rutin önyargı kontrolleri, sağlam istem tasarımı ve yalnızca tek bir test setindeki yüksek doğrulukla sınırlı kalmayacak güvenilirlik önlemleri içermesi gerektiğini vurguluyor.

Gelecekteki hastane bakımına etkileri

ClinicRealm, modern büyük dil modellerinin artık yalnızca konuşkan asistanlar olmadığını; özellikle yazılı notlardan ve az veri bulunan ortamlarda hasta sonuçlarını tahmin etmede ciddi rakipler haline geldiklerini sonuçlandırıyor. Klasik makine öğrenmesi sistemleri, bol yapılandırılmış bilgi ve onları eğitmek için zaman olduğunda hâlâ parlıyor, ancak aradaki fark daralıyor. Hastaneler ve sağlık teknolojisi uzmanları için bu, tek beden herkese uyan tercihlerden uzaklaşıp daha nüanslı bir araç takımı yönünde ilerlemek anlamına geliyor: en iyi oldukları yerlerde geleneksel modelleri kullanmak, serbest biçimli metin ve hızlı başlatma için büyük dil modellerine güvenmek ve her ikisini de muhakeme kalitesi ve adalet açısından dikkatle birleştirmek. Düşünceli uygulandığında, bu dengeli strateji tahmine dayalı analitiği daha güçlü, daha yaygın ve nihayetinde daha güvenli, daha kişiselleştirilmiş bakımı destekler hale getirebilir.

Atıf: Zhu, Y., Gao, J., Wang, Z. et al. ClinicRealm: Re-evaluating large language models with conventional machine learning for non-generative clinical prediction tasks. npj Digit. Med. 9, 319 (2026). https://doi.org/10.1038/s41746-026-02539-z

Anahtar kelimeler: klinik tahmin, elektronik sağlık kayıtları, büyük dil modelleri, tıbbi yapay zeka kıyaslama, sağlık hizmetlerinde adalet