Clear Sky Science · tr

Bakım arama tavsiyesi verme konusunda ChatGPT model sürümlerinin doğruluğunu değerlendirme

2026-02-25 · Dizine geri dön

Bu çalışmanın günlük sağlık tercihleri için önemi

Giderek daha fazla insan, ChatGPT gibi araçlara yanıltıcı derecede basit bir soru soruyor: “Acil servise gitmem mi, doktora görünmem mi, yoksa evde bekleyip izleyebilir miyim?” Bu çalışma, tam da bu kararı 22 ChatGPT sürümü üzerinde test ediyor. Bulgular, bir klinik, hemşire hattı veya güvendiğiniz bir doktor yerine yapay zekaya güvenmeyi düşünen herkes için önem taşıyor.

Araştırmacılar ChatGPT’nin tıbbi tavsiyesini nasıl test etti

Gerçek zamanlı hastalar yerine ekip, çevrimiçi olarak nereye başvurmaları gerektiğini soran gerçek kişilerden alınan, dikkatle tasarlanmış 45 hasta hikâyesi veya hezeyan (vignette) kullandı. Her hikâye daha önce iki hekim tarafından değerlendirilmişti ve bu hekimler söz konusu durumun acil tedavi, acil olmayan doktor ziyareti veya evde kendi kendine bakım gerektirip gerektirmediği konusunda anlaşmıştı. Araştırmacılar, eski modeller ve daha yeni “akıl yürütme” modelleri de dahil olmak üzere her kullanılabilir ChatGPT sürümünden bu üç seçenekten birini seçmesini istedi. Modellerin tutarlılığını görmek için her vaka ve her model için bu işlemi on kez tekrarladılar ve sonuçta 9.900 ayrı öneri elde ettiler.

Farklı ChatGPT sürümleri ne kadar doğruydu?

Çalışmadaki en iyi performans gösteren model olan o1-mini, doğru seçeneği yaklaşık dörtte üç oranında (%%74) seçti. Bazı daha küçük veya hafif modeller belirgin şekilde daha kötü performans göstererek doğruluk yaklaşık %%44’e düştü. Neredeyse tüm modeller acilleri saptamada çok başarılıydı; sınırlı acil örnekleriyle bile ihtiyaç gerçekten acil olduğunda neredeyse her zaman acil bakım önerdiler. Tipik acil olmayan doktor ziyaretleri için de güçlüydüler. En büyük zorluk kendi kendine bakımda görüldü. Daha iyi modeller bile sık sık basit dinlenme, belirtileri izleme ve birkaç gün beklemenin uygun olduğu durumlarda doktora görünmeyi tavsiye etti.

ChatGPT’nin neden “tedbirli” davranma eğiliminde olduğu

Genel olarak modeller, hekimlerin gerekli gördüğünden daha acil tavsiyelere yöneldi. Eski sürümler neredeyse hiç yetersiz bakım önermedi ve birçok yeni sürüm de hâlâ ağır şekilde ihtiyatlı davranma eğilimindeydi. Güvenlik açısından, tedbirli olmayı tercih etmek rahatlatıcı görünebilir: gerçek bir aciliyeti kaçırmaktansa birini doktora yönlendirmek genellikle daha iyidir. Ancak bir sistem neredeyse her zaman bir tür tıbbi ziyaret önermeye başlarsa, onun rehberliği günlük kararlar için daha az kullanışlı hale gelir ve kliniklerde ve acil servislerde kalabalığa katkıda bulunabilir. Ayrıca zaten endişeli olan insanlarda kaygıyı artırabilir ve onlara hafif belirtilerin bile her zaman profesyonel ilgi gerektirdiğini öğretebilir.

Tutarsızlıktan yararlanarak tavsiyeyi iyileştirme

Şaşırtıcı şekilde, aynı ChatGPT modeli aynı hasta hikâyesi gösterildiğinde her zaman aynı yanıtı vermedi. Birçok çalıştırmada bazı modeller aynı vaka için farklı aciliyet seviyeleri arasında gidip geldi. Araştırmacılar bu tutarsızlığı sadece bir eksiklik olarak görmek yerine avantajlarına kullanmayı denediler. Her vaka için tekrarlanan on yanıtı birkaç şekilde birleştirdiler. On çalıştırma arasında görülen en az acil öneriyi seçtiklerinde genel doğruluk yaklaşık dört yüzde puan arttı ve doğru kendi kendine bakım önerileri daha da çok yükseldi. Başka bir deyişle, bir model aynı hafif vaka için bazen kendi kendine bakımı, bazen doktora görünmeyi öneriyorsa, en düşük aciliyetli öneriye güvenmek sıklıkla tavsiyeyi hekimlerin yargısına daha yakınlaştırdı.

Sağlık kararları için yapay zekayı kullanan insanlar adına anlamı

Çalışmanın özeti şu: mevcut ChatGPT modelleri açık acilleri tanımada yardımcı olabilir, ancak özellikle doktora gitme ile evde kalma arasında seçim yaparken tek başlarına bakım arama kararlarını yönlendirecek kadar güvenilir değiller. Daha yeni “akıl yürütme” modelleri kendi kendine bakımın yeterli olduğu durumları tanımaya daha istekli ve bir parça daha iyi, ancak performansları hâlâ mükemmellikten uzak. Aynı modelin birden fazla yanıtını birleştiren teknikler, geliştiricilerin gelecekte daha güvenli araçlar oluşturmasına yardımcı olabilir. Şimdilik insanlar, ChatGPT’nin üçleme tarzı tavsiyesini yerel acil talimatların, profesyonel tıbbi tavsiyenin veya kendi sağduyularının yerine koymamalı; bunu diğer girdilerden biri olarak değerlendirmeliler.

Atıf: Kopka, M., He, L. & Feufel, M.A. Evaluating the accuracy of ChatGPT model versions for giving care-seeking advice. Commun Med 6, 171 (2026). https://doi.org/10.1038/s43856-026-01466-0

Anahtar kelimeler: chatgpt, kendi kendine üçleme, acil bakım, sağlık tavsiyesi, yapay zeka