Clear Sky Science · tr
Gut yönetimi için ChatGPT-4o ve Gemini’nin değerlendirilmesi: EULAR kılavuzlarına dayalı karşılaştırmalı analiz
Neden akıllı sohbet botları ve ağrılı eklemler önemli?
Genellikle başparmağa saldıran ağrılı bir artrit türü olan gut, dünya genelinde giderek daha yaygın hale geliyor. Hekimler bunu teşhis etmek ve tedavi etmek için zaten açık, bilimsel temelli kılavuzlara sahip; yine de birçok hasta ideal bakımı almıyor. Aynı zamanda ChatGPT-4o ve Gemini gibi güçlü yapay zeka sohbet botları kliniklerde görünmeye başlıyor; bu da basit ama önemli bir soruyu gündeme getiriyor: Bu araçlar gerçekten gut hakkında güvenli ve kılavuza uygun tavsiye verebilir mi, yoksa hekimleri ve hastaları yanıltma riski var mı?

Sohbet botlarının kurallara ne kadar uyduğunu kontrol etmek
Araştırmacılar, iki önde gelen dil modelini—ChatGPT-4o ve Gemini 2.0 Flash—gut için Avrupa (EULAR) resmi kılavuzlarına karşı test etmeyi amaçladı. İki uzman, kılavuzlardaki 25 temel öneriyi gerçek dünya sorunlarıyla ilgili hekim tarzı sorulara dönüştürdü: gut nasıl teşhis edilir, ürat düşürücü ilaçlara ne zaman başlanmalı, alevlenmeler nasıl yönetilmeli, kan testlerinde hangi hedeflere ulaşılmalı ve yaşam tarzı veya diğer ilaçlar nasıl ayarlanmalı gibi. Her iki sohbet botuna da önceki cevapların yeni yanıtları etkilememesi için ayrı, temiz oturumlarda aynı sorular soruldu.
Cevaplar nasıl puanlandı
Her cevap, hangi modelin metni ürettiğini bilmeyen iki deneyimli gut klinisyeni tarafından değerlendirildi. Üç şeyi puanladılar. Birincisi, güvenilirlik: yanıt dengeli, nesnel ve güvenilir mi, yoksa önemli bilgileri atlıyor veya yararları abartıyor mu? İkincisi, kalite: cevap uzmanın karar vermesinde açık, iyi örgütlenmiş ve kullanışlı mı? Üçüncüsü, kılavuza uyum: cevap EULAR’ın önerilerine tamamen uyuyor mu, kısmen ve eksik şekilde örtüşüyor mu yoksa doğrudan çelişiyor mu? Ekip ayrıca cevapların okunabilirliğini, bir metni anlamak için gereken eğitim düzeyini tahmin eden standart okunabilirlik testleriyle kontrol etti.
ChatGPT ve Gemini: hangisi daha iyi?
Her iki sohbet botu da genel olarak mantıklı, açık yazılmış yanıtlar üretti ve sık sık okuyucuları bir sağlık profesyoneline danışmaya yönlendirdi. Ancak önemli farklılıklar ortaya çıktı. ChatGPT-4o yanıtların %76’sında gut kılavuzlarıyla tam uyum gösterdi ve başka %20’sinde büyük ölçüde doğru ama eksik yanıtlar verdi; yalnızca tek bir yanıtında açık bir tıbbi hata vardı. Gemini ise yanıtların %48’inde tam uyum sağlarken %32’sinde kısmen doğru ama eksik cevaplar verdi. Daha kaygı verici olarak, yanıtlarının %12’si doğru fikirleri yanlış bilgilerle karıştırdı ve %8’i kılavuzlarla açıkça çelişti—örneğin EULAR’ın seçilmiş, tedavisi zor hastalarda sınırladığı güçlü bir anti-inflamatuar ilaç sınıfı (IL‑1 inhibitörleri) gibi geniş kullanım önermek veya akut alevlenme sırasında rutin olarak ürat düşürücü ilaç başlatmayı teşvik etmek; uzmanların daha temkinli olunmasını önerdiği bir alan.
Okunabilir, ama kolay okunmuyor
Üslup söz konusu olduğunda, iki sistem şaşırtıcı şekilde benzerdi. Birden fazla okuma ölçeğinde her iki sistemin ürettiği metin en az üniversite düzeyinde eğitim gerektiriyor gibiydi. Bu, uzman hekimler için kabul edilebilir olabilir ama çoğu hasta için fazlasıyla karmaşık. Hiçbir model, özel olarak sorulmadıkça kaynaklara veya bağlantılara yer vermedi; bu da bilgilerin nereden geldiğini doğrulamayı zorlaştırıyor. Değerlendiriciler arasındaki uyum iyi ila mükemmel olarak derecelendirildi; bu da puanlamanın tutarlı olduğunu ve sohbet botları arasındaki farkların görüşe dayalı değil gerçek olduğunu gösteriyor.

Gut yaşayan kişiler için bunun anlamı
Genel olarak çalışma, gelişmiş sohbet botlarının gut yönetiminde hekimlere yardımcı olabilecek araçlar olduğunu fakat tek başına yeterli olmadıklarını öne sürüyor. ChatGPT-4o, Gemini’ye kıyasla daha güvenilir, daha eksiksiz ve uzman kılavuzlarına daha sadıktı; ancak nadir hataları ilaçlar ve güvenlik söz konusu olduğunda önem taşıyabilir. Her iki araç da çoğu hasta için fazla karmaşık bir düzeyde konuştu ve dahili olarak kaynak şeffaflığından yoksundu. Şimdilik yazarlar, yapay zekânın hekimlere ve eğitimcilere yardımcı olabilecek umut verici bir destek aracı olarak görülmesi gerektiğini; ancak özellikle dozaj ve zamanlama gibi küçük ayrıntıların ağrı, uzun vadeli hasar ve yaşam kalitesi üzerinde büyük fark yaratabildiği gut gibi durumlarda, verilen tavsiyenin güncel kılavuzlar ve uzman değerlendirmesi ile mutlaka karşılaştırılması gerektiğini savunuyorlar.
Atıf: Meral, H.B., Kolak, E. Evaluation of ChatGPT-4o and Gemini for gout management: a comparative analysis based on EULAR guidelines. Sci Rep 16, 4831 (2026). https://doi.org/10.1038/s41598-026-35166-5
Anahtar kelimeler: gut, klinik kılavuzlar, yapay zeka, büyük dil modelleri, romatoloji