Clear Sky Science · tr

Romence tıbbi soru-cevap için büyük dil modellerini değerlendirmek amacıyla büyük ölçekli bir kıyaslama

· Dizine geri dön

Sağlık ve teknoloji açısından neden önemli

Günümüzde birçok kişi sağlık bilgisi için çevrimiçi araçlara ve sohbet botlarına başvuruyor, ancak bu sistemlerin çoğu en iyi İngilizce olarak çalışıyor ve yerel tıbbi kayıtlarla zorlanıyor. Bu makale, doktorların uzun, karmaşık vaka özetlerini Romence yazdığı ve kanser hastalarıyla ilgili sorulara hızla ve güvenilir şekilde yanıt verecek dijital yardımcılar gerektiği Romanya için bu boşluğu ele alıyor. Yazarlar, araştırmacıların gerçek klinik notları Romence olarak ciddi şekilde test edip geliştirebilmelerine olanak tanıyan yeni bir kaynak olan MedQARo’yu sunuyor.

Gerçek hastalardan oluşturulmuş yeni bir soru bankası

Çalışmanın merkezinde MedQARo var: 1.242 kanser hastasına bağlı 105.880 soru–cevap çiftinden oluşan çok büyük bir koleksiyon. İngilizce verilerin tercümesi yerine ekip, çoğunlukla meme ve akciğer kanseri ile birkaç diğer tümör türüne ilişkin özgün Romence vaka özetlerinden sıfırdan başladı. Yedi onkoloji uzmanı ve asistanı bu belgeleri okumak ve özenle tasarlanmış tıbbi sorulara yanıtlar yazmak için yaklaşık 3.000 saat harcadı. Bazı sorular evet/hayır, bazıları belirli ayrıntıları çıkarmaya yönelik ve bazıları evreler veya tedavi zaman çizelgelerini tahmin etmek için ipuçlarını birleştirmeyi gerektiriyor. Tüm hasta verileri tam anonimleştirildi ve etik kurullar tarafından onaylandı.

Figure 1
Figure 1.

Yerel tıbbi dilde yapay zekanın test edilmesi

MedQARo kullanılarak, yazarlar Romence için genel amaçlı iki model de dahil olmak üzere birkaç büyük dil modeli ailesini, çok uzun metinlerle başa çıkmak üzere tasarlanmış bir modeli ve İngilizce tıbbi materyal üzerine eğitilmiş bir modeli değerlendirdiler. Ayrıca ücretli API’ler aracılığıyla erişilen iki güçlü ticari modelle de karşılaştırdılar. Her model soruyu ve klinik özetten bir alıntıyı okuyup cevabı üretmek zorundaydı. Araştırmacılar yalnızca tam eşleşmeleri değil, aynı zamanda modellerin anahtar kelimeleri ne sıklıkta yakaladığı ve esnek Romence ifade biçimlerinde ne kadar iyi performans gösterdiklerini de dört farklı puanlama ölçüsüyle incelediler.

İnce ayarlı modeller “kutudan çıktığı gibi” devleri yendi

Genel olarak, doğrudan “kutudan çıktığı gibi” kullanılan modeller MedQARo’da zayıf performans gösterdi; bunlar İngilizcede güçlü olsalar veya bir miktar Romence maruziyeti bulunsa bile başarısız kaldı. Her zaman en yaygın cevabı tahmin eden basit temel yaklaşımlar bazen bu sıfır-atış (zero-shot) sistemlerle neredeyse eşdeğer performans gösterdi. Ancak araştırmacılar modelleri yeni veri kümesi üzerinde ince ayar yaptıklarında performans dramatik biçimde yükseldi. En iyi sistem, Romence’ye uyarlanmış RoMistral‑7B adlı model, eğitimde görülen kanser türlerinde ve hastanelerde yaklaşık 0,67 F1 puanına ulaştı ve tüm diğer açık kaynaklı ve ticari modelleri açıkça geride bıraktı. Buna rağmen, bu lider model bile soruların üçte birinden fazlasını yanlış yanıtladı; bu da kıyaslamanın ne kadar zorlu olduğunu gösteriyor.

Figure 2
Figure 2.

Poliklinikler ve kanser türleri arasında genellemenin stres test edilmesi

Bu sistemlerin yeni durumlarla başa çıkıp çıkamayacağını görmek için ekip, eğitim sırasında görülmemiş bir tıp merkezinden ve kanser türlerinden alınmış daha zor bir test seti oluşturdu. Bu çapraz‑alan senaryosunda her modelin performansı genellikle keskin biçimde düştü; en iyi ince ayarlı model bile doğru yanıtları yarıdan çok daha az oranda verdi. İngilizce biyomedikal metinler üzerinde eğitilmiş modeller otomatik olarak Romence notlara iyi geçiş yapmadı ve modellere klinik belgenin çok daha uzun bir kesitini vermek de çok yardımcı olmadı. Aslında, özetin ilk kısmına odaklanmak genellikle tüm uzun kaydı vermekten daha iyi sonuç verdi; bu da daha fazla bağlamın açıklamaktan çok kafa karıştırabileceğini düşündürüyor.

Geleceğin klinik yapay zekası için çıkarımlar

Bir genel okuyucu için temel mesaj şudur: Romence gibi dillere yönelik güvenli ve kullanışlı tıbbi yapay zeka oluşturmak, sadece yerel verileri büyük İngilizce-merkezli bir sohbet botuna takmak kadar basit değil. MedQARo gibi özenle hazırlanmış, dile özgü kıyaslamalar hem mevcut sistemlerin potansiyelini hem de sınırlarını ortaya koyuyor. Bu çalışmalar, yüksek kaliteli yerel verilerle ince ayar yapıldığında küçük, açık kaynaklı modellerin bulutta çalışan çok daha büyük genel modelleri geride bırakabileceğini gösteriyor. Aynı zamanda, özellikle yeni hastaneler ve kanser türlerinde görülen orta düzeydeki skorlar, bugünkü araçların insan yargısının yerini almaya hazır olmadığını uyarıyor. Bunun yerine, MedQARo, hastaların güvenliği ve gizliliğini merkeze alarak Romanyalı doktorların karmaşık kanser kayıtlarında gezinmesine yardımcı olabilecek bir sonraki nesil klinik asistanlar için sağlam bir temel sunuyor.

Atıf: Rogoz, AC., Ionescu, R.T., Anghel, AV. et al. A large-scale benchmark for evaluating large language models on medical question answering in Romanian. npj Digit. Med. 9, 268 (2026). https://doi.org/10.1038/s41746-026-02465-0

Anahtar kelimeler: tıbbi soru-cevap, Romence dilinde Yapay Zeka, kanser klinik kayıtları, büyük dil modelleri, MedQARo kıyaslaması