Clear Sky Science · tr

Bariatrik cerrahiyle ilgili sorularda büyük dil modellerinin çok disiplinli uzman değerlendirmesi: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus ve Gemini Pro’nun karşılaştırmalı analizi

· Dizine geri dön

Kilo verme ameliyatını düşünen kişiler için neden önemli

Kilo verme ameliyatını düşünen kişiler genellikle hızlı yanıtlar için çevrimiçi araçlara ve sohbet botlarına başvurur. Bu çalışma basit ama önemli bir soruyu soruyor: büyük dil modeli sohbet botları bariatrik cerrahiye dair yaygın soruları yanıtladığında, cevapları ne kadar doğru ve eksiksiz oluyor ve gerçekten hastalara ve klinisyenlere destek sağlayabiliyor mu?

Modern sohbet botlarının klinikteki rolü

Araştırmacılar, büyük dil modellerine dayalı yaygın olarak kullanılan dört sohbet botunu inceledi: ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus ve Gemini Pro. Uygunluk kriterleri, hazırlık, beklenen riskler ve sonrasındaki yaşam tarzı değişiklikleri gibi bariatrik cerrahiyle ilgili gerçek dünya sorularına odaklandılar. Tıp literatürü, sosyal medya ve klinik ziyaretlerinden toplanan başlangıçtaki 200 soru havuzundan, hastaların kaygılarını en iyi temsil eden 50 soru seçildi. Her sohbet botu tüm 50 soruyu yanıtladı; toplamda 200 yanıt üretildi ve bunlar inceleme için çevrildi ve standartlaştırıldı.

Figure 1. Uzmanlar, kilo verme ameliyatıyla ilgili yaygın soruları yanıtlayan dört yapay zeka sohbet botunu güvenlik ve fayda açısından değerlendiriyor.
Figure 1. Uzmanlar, kilo verme ameliyatıyla ilgili yaygın soruları yanıtlayan dört yapay zeka sohbet botunu güvenlik ve fayda açısından değerlendiriyor.

Bir bakış açısı değil, çok sayıda uzman

Yanıtları yalnızca cerrahların değerlendirmesine bırakmak yerine, ekip yedi deneyimli profesyonelden oluşan çok disiplinli bir panel topladı: dört bariatrik cerrah, bir obezite hekimi ve iki diyetisyen. Her uzman her bir yanıtın doğruluğunu bağımsız olarak puanladı ve daha iyi yanıtlar için kapsamını değerlendirdi. Doğruluk, açıkça yanlış ve potansiyel olarak zararlıdan tamamen doğruya uzanan üç adımlı bir ölçekle değerlendirildi. Kapsamlılık ise bir yanıtın prosedür ayrıntıları, riskler ve takip bakımı gibi önemli noktaları ne kadar kapsadığına ilişkin beş adımlı bir ölçekle puanlandı. Değerlendirme süreci körlendi; değerlendiriciler hangi sohbet botunun hangi yanıtı ürettiğini bilmiyordu ve yanıtlar önyargıyı azaltmak için karıştırılarak birkaç oturuma dağıtıldı.

Sohbet botlarının performansı

Genel olarak, dört sohbet botu karışık sonuçlar gösterdi. Tüm uzman puanları toplandığında ERNIE Bot 4.0 en yüksek ortalama doğruluk puanını elde etti, ancak ChatGPT-4, basitçe iyi olarak değerlendirilen yanıtların en yüksek payına sahipti ve hiçbir kötü puan almadı. Claude 3 Opus en uzun ve en ayrıntılı yanıtları verme eğilimindeydi; Gemini Pro ise doğrulukta belirgin şekilde geride kaldı; yanıtlarının yarısından azı iyi olarak değerlendirildi ve çoğu değerlendirici tarafından birkaç yanıtı zayıf puanlandı. Tüm sohbet botları konuların tam kapsamını sunmakta zorlandı: daha iyi yanıtlar bile genellikle yalnızca orta düzeyde ayrıntıya ulaşıyordu ve hiçbiri ameliyat hakkında tam olarak bilgilendirilmiş kararlar almak için gereken derinliği tutarlı şekilde sağlamadı.

Figure 2. Yapay zeka sohbet botlarının cerrahi yanıtları nasıl oluşturduğuna ilişkin adım adım görünüm ve doktorların daha güvenli rehberliği riskli tavsiyeden nasıl ayırdıkları.
Figure 2. Yapay zeka sohbet botlarının cerrahi yanıtları nasıl oluşturduğuna ilişkin adım adım görünüm ve doktorların daha güvenli rehberliği riskli tavsiyeden nasıl ayırdıkları.

Yanıtların yetersiz kaldığı alanlar

Her sohbet botu için en zayıf alan iyileşme, riskler ve komplikasyonların açıklanmasıydı. Bu konular sıklıkla ince dengeler ve uzun dönem takip gerektirir; araçlar bunları basitleştirme eğilimindeydi. Bazı yanıtlar kilo kaybı konusunda gerçekçi olmayan beklentiler sundu veya önemli güvenlik bilgilerini dışarıda bıraktı; diğerleri ise gerçek hastalar için faydalı olmaktan uzak, aşırı genel tavsiyeler verdi. Uzmanlar sohbet botlarından en zayıf yanıtlarını gözden geçirip düzeltmelerini istediklerinde, çoğu araç belirgin şekilde iyileşti; özellikle kanıta dayalı kaynakları çevrimiçi kontrol etmeye yönlendirildiğinde. Ancak kendi kendini düzeltme ve web araması bile bazı modellerin bazı yanıtlarını doğru hale getirmedi; bu da internet erişiminin tek başına güvenilir tıbbi rehberlik sağlamayacağını gösteriyor.

Hastalar ve klinisyenler için anlamı

Şimdilik çalışma, büyük dil modeli sohbet botlarının bariatrik cerrahi hakkında temel sorular ve ilk bilgi arayışı için eğitsel yardımcılar olarak yararlı olabileceğini öne sürüyor. Ancak tek başlarına profesyonel tavsiyenin yerini almak veya ameliyat, iyileşme ya da uzun dönem bakım kararlarını yönlendirmek için hazır değiller. Yazarlar, daha güvenli kullanımın bariatrik tıp için özel olarak uyarlanmış, sağlam kanıtlara dayanan ve cerrahlar, hekimler, diyetisyenler ve hemşirelerin sürekli katkısıyla geliştirilen modeller gerektireceğini savunuyor. Titiz tasarım ve sıkı denetimle, bu araçlar nihayetinde hastalar ile bakım ekipleri arasında daha bilinçli konuşmaları destekleyebilir; onların yerini almak yerine onlara eşlik edebilir.

Atıf: Cai, J., Chen, J., Yu, T. et al. Multidisciplinary expert evaluation of large language models on questions regarding bariatric surgery: a comparative analysis of ERNIE Bot 4.0, ChatGPT-4, Claude 3 Opus, and Gemini Pro. Sci Rep 16, 16043 (2026). https://doi.org/10.1038/s41598-026-46766-6

Anahtar kelimeler: bariatrik cerrahi, kilo verme ameliyatı, tıbbi sohbet botları, büyük dil modelleri, hasta eğitimi