Clear Sky Science · tr

Obstetrik uzmanları tarafından değerlendirilen gebelikle ilgili soruları yanıtlamada Yapay Zeka dil modellerinin değerlendirilmesi

· Dizine geri dön

Neden bu, bekleyen ebeveynler için önemli

Gebelik soru yüklü bir dönemdir ve birçok kişi hızlı yanıtlar için artık çevrimiçi araçlara ve sohbetbotlara başvuruyor. Bu çalışma basit ama önemli bir soruyu sordu: gebelikte sık görülen kaygılar söz konusu olduğunda, bugün popüler olan yapay zeka (YZ) sohbetbotları, doktorların güveneceği şekilde açık, doğru ve güven verici bilgileri ne kadar iyi sunuyor?

Üç dijital “yanıt motorunu” karşılaştırmak

Türkiye’den araştırmacılar, üç tanınmış YZ dil modelini—ChatGPT’nin önceki bir sürümünü (3.5), daha yeni bir sürümü (4.0) ve Google’ın Gemini’sini—karşılaştırmaya karar verdi. Bunlar, hangi gıdaların kaçınılması gerektiği, egzersiz ve cinselliğin güvenli olup olmadığı, erken kanamanın ne anlama gelebileceği, fetal hareketlerin nasıl değerlendirilmesi gerektiği ve hangi uyarı işaretlerinin acil müdahale gerektirdiği gibi gebelerin sıkça sorduğu on günlük soruya odaklandı. Her soru, cevapların sohbetvari ya da yaratıcı yerine tutarlı olmasını sağlamak için rastgeleliği azaltacak ayarlarla ve aynı basit yönergelerle tüm sistemlere girildi.

Her model her soru için Türkçe olarak tek bir yanıt üretti; takip istemleri veya düzenleme yapılmadı. Yanıtlardan modelin hangisi olduğunu belli edebilecek bütün ipuçları çıkarıldı ve rastgele sıraya kondu. Böylece insan değerlendiriciler—kadın doğum uzmanları—sadece sayfadaki içeriği değerlendirdi, marka adı veya tahmin ettikleri yazım üslubuna göre değil.

Figure 1
Figure 1.

Doktorlar yanıtları nasıl değerlendirdi

Erken kariyer doktorlardan çok deneyimli klinisyenlere kadar uzanan 75 obstetrik uzman, anonimleştirilmiş 30 yanıtın tamamını puanladı. Her yanıt için dört niteliği beş puanlı bir ölçekle derecelendirdiler: doğruluk (mevcut tıbbi bilgi ve kılavuzlarla uyumlu mu?), güvenirlik (ileti iç tutarlı mı ve tehlikeli tavsiyeler içeriyor mu?), hasta dostu olma (ton, uzman olmayanlara uygun ve güven verici mi?) ve anlaşılabilirlik (dil açık, iyi yapılandırılmış ve takip etmesi kolay mı?). Toplamda uzmanlar 9.000 bireysel puanlama sağladı—bu, araştırmacıların üç YZ aracının arasındaki anlamlı farklılıkları tespit etmelerine olanak veren büyük bir veri setiydi.

Araştırma ekibi daha sonra derecelendirme ölçekleri için tasarlanmış istatistiksel yöntemleri kullanarak modelleri karşılaştırdı. Ayrıca farklı doktorların aynı yanıtları ne kadar tutarlı değerlendirdiğini kontrol ettiler ve daha deneyimli klinisyenlerin genç meslektaşlarına göre farklı puanlayıp puanlamadığını incelediler. Amaç bir sohbetbot geliştirmek değil, kontrollü koşullar altında bu sistemlerin gerçekçi gebelik sorularına nasıl yanıt verdiğine dair dikkatli bir anlık görüntü almaktı.

Hangi sohbetbot en iyi performansı gösterdi?

Genel olarak, daha yeni olan ChatGPT-4.0 en önde çıktı. Doktorlar onun yanıtlarını en doğru ve en hasta dostu olarak değerlendirdi; ayrıca güvenirlik açısından da en iyi performansı gösterdi. Gemini genelde ortalarda yer aldı: cevapları sıkça açık ve okunması kolaydı ve salt anlaşılabilirlik açısından ChatGPT-4.0’a benzerdi, ancak genelde biraz daha az ayrıntılı ve kesin olma eğilimindeydi. Daha eski model ChatGPT-3.5 ise tutarlı olarak en düşük puanları aldı; sıklıkla daha kısa veya daha eksik açıklamalar veriyordu. İlginç olarak, temel netlik ve yapı söz konusu olduğunda üç model daha benzer görünüyordu; bu da metni okunur kılmanın, her tıbbi detayı doğru ve dengeli yapmaktan daha kolay olabileceğine işaret ediyor.

Figure 2
Figure 2.

Doktorların puanları birbirleriyle yüksek tutarlılık gösterdi; bu da sonuçların birkaç uç görüşe dayalı olmadığını gösteriyor. Daha deneyimli klinisyenlerin genel olarak biraz daha yüksek güvenirlik puanları verme eğilimi vardı, ancak yanıtların ne kadar dostça veya anlaşılması kolay olduğu konusunda görüşleri çok farklı değildi.

Gerçek dünya kullanımı için anlamı

Sıradan bir kişi için çıkarım şudur: modern YZ araçları—özellikle ChatGPT-4.0—zaten birçok kadın doğum uzmanının makul derecede doğru, güvenli ve okunması kolay bulduğu gebelik bilgileri sağlayabiliyor. Ancak çalışma önemli bir sınırı da vurguluyor: en iyi performans gösteren sistem bile bir doktor değil. Araştırmacılar sohbetbot yanıtlarını resmi kılavuzların “altın standartları” ile karşılaştırmadı ve hastaların tavsiyeyi gerçekte nasıl yorumlayıp uyguladığını test etmediler. Çalışma tamamen Türkçe yapıldığı için diğer dillerde ve kültürlerde performans farklı olabilir.

Düz bir ifadeyle, bu YZ sohbetbotları özellikle klinik ziyaretinin uzak olduğu veya sağlayıcıyla geçirilen zaman kısıtlı olduğunda gebelik hakkında bilgi edinmede yardımcı olabilir. Ancak profesyonellerle yapılan görüşmelerin yerini almamalıdır. Yazarlar, hataları yakalamak, yanlış güvenceyi önlemek ve nüanslı ya da yüksek riskli durumların gerekli olan kişisel, yüz yüze bakımı almasını sağlamak için uzman gözetiminin hâlâ vazgeçilmez olduğunu vurguluyorlar.

Atıf: Keyif, B., Yurtçu, E., Başbuğ, A. et al. Evaluation of AI language models in answering pregnancy-related questions assessed by obstetrics specialists. Sci Rep 16, 9322 (2026). https://doi.org/10.1038/s41598-026-40609-0

Anahtar kelimeler: gebelik eğitimi, yapay zeka sohbetbotları, çevrimiçi sağlık tavsiyesi, kadın doğum, hasta bilgi kalitesi