Clear Sky Science · tr

Sistematik kıyaslama, büyük dil modellerinin geleneksel nadir hastalık karar destek araçları kadar tanısal doğruluğa ulaşmadığını gösteriyor

2026-02-24 · Dizine geri dön

Bu hastalar ve doktorlar için neden önemli

Bir kişi nadir bir hastalığa sahip olduğunda, doğru tanıya ulaşmak yıllar süren belirsizlik, tekrarlanan testler ve birçok uzmana yapılan ziyaretler gerektirebilir. Aynı zamanda, büyük dil modelleri olarak adlandırılan güçlü yeni yapay zeka sistemleri, tıp alanında potansiyel olarak oyunu değiştirecek gelişmeler olarak övülüyor. Bu çalışma basit ama kritik bir soruyu soruyor: bu yeni yapay zeka sohbet botları, doktorların halihazırda kullandığı uzmanlaşmış araçlardan gerçekten daha iyi mi nadir genetik hastalıkları tespit etmede, yoksa hâlâ katedecek yolları mı var?

Nadir hastalıklar ve yanıt arayışının uzun yolu

Her bir nadir hastalık nispeten az kişiyi etkilerken, bu tür koşul sayısı 10.000’in üzerinde ve birlikte baktığınızda her 12 kişiden birine kadar dokunuyorlar. Bu hastaların birçoğu, yanlışın ne olduğunu kimse adlandıramadan önce beş ila yedi yıl sürebilen bir “tanısal odysey”ye katlanıyor. Genetik koşullar için kilit adımlardan biri, bir kişinin semptomlar, laboratuvar sonuçları ve görüntü bulgularının kombinasyonunu belirli hastalıkların bilinen desenleriyle eşleştirmektir. Kurulu bilgisayar programları zaten bunun için standartlaştırılmış tıbbi özellik sözlüklerini kullanarak binlerce olası durumu arıyor.

Sohbet botları ile geleneksel araçları teste sokmak

Araştırmacılar, doğrulanmış nadir genetik veya kromozomal hastalığı olan 5 binden fazla gerçek ama anonimleştirilmiş vaka içeren büyük bir koleksiyon topladı. Her vaka, kişinin yaşını, cinsiyetini, semptomlarını ve test bulgularını ortak bir tıbbi sözlük kullanarak kodlayan yapılandırılmış bir formata dikkatle dönüştürülmüştü. Bu yapılandırılmış kayıtlardan ekip, genel amaçlı sistemler ve özellikle tıbbi metinlerde eğitilmiş modeller de dahil olmak üzere yedi farklı dil modeline verilebilecek kısa vaka öykülerini otomatik olarak oluşturdu. Paralelde, aynı yapılandırılmış veriler Exomiser adlı yaygın kullanılan bir nadir hastalık karar destek programına aktarıldı; karşılaştırmanın adil olması için herhangi bir genetik dizileme bilgisi verilmedi.

Doğru hastalığı bulanı puanlama

Sohbet botlarıyla geleneksel yazılımların cevaplarını karşılaştırmak göründüğünden daha zordur, çünkü dil modelleri farklı hastalık isimleri veya ayrıntı düzeyleri kullanabilecek serbest biçimli metinle yanıt verir. Bir cevabın “yeterince yakın” olup olmadığı konusundaki insan görüşüne dayanmak yerine, ekip her önerilen tanıyı birleşik bir hastalık kataloğuna eşledi. Bir modelin önerisi, doğru hastalıkla tam eşleşiyorsa, eşdeğer bir ad içeriyorsa veya doğru durumu açıkça kapsayan biraz daha genel bir versiyonla örtüşüyorsa doğru sayıldı. Her vaka için, doğru cevabın modelin sıralanmış listesinde nerede göründüğü—birinci sırada, ilk üç arasında veya ilk on içinde—ölçüldü.

Kafa kafaya karşılaştırma ne gösterdi

Toplam 5.213 vaka boyunca Exomiser, test edilen her dil modelini açıkça geride bıraktı. Yalnızca semptom bilgisi kullanarak Exomiser doğru tanıyı yaklaşık her üç vakadan birinde birinci sıraya koydu ve iyi bir kısmında ilk on içinde yer aldı. En iyi dil modeli, akıl yürütmeye odaklanmış bir sistem, vakaların yaklaşık dörtte birinden biraz azında birinci sıraya ulaşırken ilk on içinde biraz üzerinde yer aldı. Diğer tıp odaklı modeller belirgin şekilde daha kötü performans gösterdi ve çok büyük bir tıbbi model neredeyse hiç doğru hastalığı önermedi. Bu desenler, araştırmacılar kalp, beyin veya bağışıklıkla ilgili bozuklukları ayrı ayrı incelediklerinde ve semptom açıklamalarının ne kadar ayrıntılı olduğuna göre vakaları böldüklerinde de korundu.

Tanıda yapay zekânın geleceği için ne anlama geliyor

Bu çalışma, dil konusundaki etkileyici yeteneklerine rağmen, günümüzün büyük dil modellerinin yalnızca semptom tanımlarıyla nadir genetik hastalıkları tanımlamada hâlâ uzmanlaşmış araçlar kadar güvenilir olmadığını gösteriyor. Yine de yardımcı olarak faydalı olabilirler—örneğin doktorların olasılıkları düşünmesine yardım etmek veya koşulları sade bir dille açıklamak gibi—ama hayatların ve uzun süren gecikmiş yanıtların söz konusu olduğu durumlarda yerleşik yazılımların yerini almamalılar. Yazarlar, en umut verici yolun dil modellerini dikkatle tasarlanmış tanısal hatlara entegre etmek olduğunu; böylece bunların güvenilir biyoinformatik araçların yerine değil, yanında çalışması gerektiğini savunuyorlar.

Atıf: Reese, J.T., Chimirri, L., Bridges, Y. et al. Systematic benchmarking demonstrates large language models have not reached the diagnostic accuracy of traditional rare-disease decision support tools. Eur J Hum Genet 34, 498–504 (2026). https://doi.org/10.1038/s41431-026-02054-5

Anahtar kelimeler: nadir hastalıklar, tıbbi tanı, büyük dil modelleri, klinik karar desteği, genetik bozukluklar