Clear Sky Science · tr

Büyük dil modelleri ile yayımlanmış klinik deneme sonuçları arasındaki uyumu dört yapay zeka platformu genelinde kıyaslama

· Dizine geri dön

Günlük sağlık hizmetleri için neden önemli

Hekimler, hangi tedavilerin güvenli ve etkili olduğuna karar vermek için büyük klinik denemelere güvenirler. Aynı zamanda yeni yapay zeka araçları tıbbi araştırmaları okumada ve özetlemede giderek daha iyi hale geliyor. Bu çalışma, hastalar ve klinisyenler için basit ama önemli bir soruyu gündeme getiriyor: bu araçlar insan uzmanlarla aynı denemeleri okuduklarında, neyin işe yarayıp neyin yaramadığı konusunda aynı nihai sonuçlara mı varıyorlar?

Araştırmacıların yapay zekayı nasıl test ettiği

Ekip, New England Journal of Medicine’de yayımlanmış, kalp hastalığı, inme, diyabet, kanser ve beyin cerrahisini kapsayan 20 iyi bilinen klinik denemeye odaklandı. Bu denemeler, dikkatle tasarlanmış ve açıkça raporlanmış olmaları nedeniyle güçlü bir sınama zemini sundu. Araştırmacılar tam makaleleri yapay zeka sistemlerine vermek yerine, olay oranları ve sonuç grafiklerini içeren tablolar ve şekiller gibi sayıları barındıran yalnızca tabloları ve şekilleri sağladılar. Bu, araçları yazarların yazılı özetlerini kopyalamak yerine verinin kendisine dayanmak zorunda bıraktı.

Figure 1. Farklı yapay zeka araçlarının aynı tıbbi denemeleri nasıl okuduğu ve hekimlerin sonuçlarıyla nasıl örtüştüğü.
Figure 1. Farklı yapay zeka araçlarının aynı tıbbi denemeleri nasıl okuduğu ve hekimlerin sonuçlarıyla nasıl örtüştüğü.

Yapay zeka sistemlerinden istenenler

Dört yaygın kullanılan büyük dil modeli test edildi: ChatGPT, Gemini, Grok3 ve Claude. Her modele aynı standartlaştırılmış istem verildi ve veriyi beş şekilde yorumlaması istendi. Modellerin genel bulguları açıklamaları, istatistikleri yorumlamaları, sonuçları hasta bakımıyla ilişkilendirmeleri, çalışma sınırlamalarını belirtmeleri ve bulguların pratikte nasıl uygulanabileceğine dair önerilerde bulunmaları gerekiyordu. İki eğitilmiş analist daha sonra her bir yapay zeka yanıtını orijinal deneme makalesiyle karşılaştırdı ve bu beş alandaki performansı sıfırdan beşe kadar bir ölçekle puanladı.

Yapay zekanın insan sonuçlarıyla ne kadar uyumlu olduğu

ChatGPT yayımlanmış deneme sonuçlarıyla en güçlü uyumu gösterdi ve 20 deneme boyunca medyan olarak 25 üzerinden mükemmel 25 puan aldı. Gemini 25 üzerinden 21 ile onu izledi, Grok3 ve Claude ise medyan puanları sırasıyla 18 ve 17 ile geride kaldı. Dört araç da hastalar için sonuçların neden önemli olduğunu tanımlamada en iyi performansı gösterdi ve özellikle ChatGPT her alanda en üst sırada yer aldı. Gemini ayrıca çalışma zayıflıklarını ve potansiyel karıştırıcı faktörleri tespit etmede iyi performans gösterirken, Grok3 ve Claude sınırlamaları tanımada ve uygulamalı tedavi önerileri sunmada daha az güvenilirdi. İki insan değerlendirici birbirleriyle yakın düzeyde mutabık kalarak puanlama yönteminin kendisinin istikrarlı olduğunu gösterdi.

Figure 2. Yapay zekanın deneme verilerini adım adım nasıl yargılara dönüştürdüğüne dair bir bakış.
Figure 2. Yapay zekanın deneme verilerini adım adım nasıl yargılara dönüştürdüğüne dair bir bakış.

Gizli eğitim verileri ve gerçek dünya güvenliği konusunda uyarı

Sayılar etkileyici görünse de yazarlar sonuçların dikkatle yorumlanması gerektiği konusunda uyarıda bulunuyor. Kullanılan denemeler ünlü olup muhtemelen bu yapay zeka sistemlerinin eğitim verilerinde yer aldı. Bu, araçların bu çalışmaları zaten "biliyor" olabileceğini ve sağlanan tablolardan bağımsız olarak daha önce gördükleri kalıpları hatırlıyor olabileceklerini gösterir. Hangi sistemin hangi yanıtı ürettiğine dair körleme yapılmamış olması da puanlamada ince insan önyargısına alan bırakır. Ayrıca seçilen denemelerin çoğunun açık, olumlu bulgular içermesi, gerçek dünyada kararları şekillendiren çoğu zaman karmaşık ve belirsiz olan araştırmaları değil en iyi durum senaryosunu temsil eder.

Gelecekteki bakım için bunun anlamı

Bir uzman olmayan için çıkarılacak sonuç şu: bazı yapay zeka araçları, özellikle ChatGPT ve Gemini, en azından iyi bilinen, yüksek kaliteli çalışmalar için tıbbi deneme verilerini sıklıkla okuyup uzman görüşleriyle örtüşebiliyor. Bu, karmaşık araştırmaları özetlemede ve kanıtları düzenlemede yararlı yardımcılar olabileceklerini düşündürür, ancak doktorların veya araştırmacıların yerini almaya henüz hazır değiller. Eğitim geçmişleri belirsiz, performansları platformlar arasında değişken ve yanıtlarının doğrudan tedavi kararları almak için güvenli olduğu kanıtlanmış değil. Yazarlar, yapay zekanın sayıları eleyip kalıpları vurgulayabilen güçlü bir yardımcı olarak görülmesi gerektiğini, insan klinisyenlerin ise hüküm, empati ve hasta bakımına ilişkin nihai seçimlerden sorumlu olmaya devam etmesi gerektiğini savunuyorlar.

Atıf: Mao, G., Snyder, W., Chinthala, A.S. et al. Benchmarking agreement between large language models and published clinical trial conclusions across four artificial intelligence platforms. Sci Rep 16, 15606 (2026). https://doi.org/10.1038/s41598-026-45326-2

Anahtar kelimeler: büyük dil modelleri, klinik denemeler, tıbbi yapay zeka, kanıt sentezi, klinik karar desteği