Clear Sky Science · tr

Tıp öğrencileri için klinik hematoloji çoktan seçmeli soruları üretmede üç yapay zeka sohbet robotunun değerlendirilmesi

· Dizine geri dön

Yarının Doktorları için Daha Akıllı Sınav Soruları

Çoktan seçmeli sınavlar heyecan verici görünmeyebilir, ancak geleceğin doktorlarının becerilerini sessizce şekillendirir. Bir sınavdaki her soru, öğrencilerin gerçek hastalar hakkında nasıl düşündüğünü etkileyebilir. Bu çalışma güncel bir soruyu gündeme getiriyor: modern yapay zeka sohbet robotları, yoğun tıp öğretim görevlilerinin hematoloji alanında iyi sınav soruları yazmasına kalite veya güvenlikten ödün vermeden daha hızlı yardımcı olabilir mi?

Yapay Zeka Sınav Soruları Oluşturmada Nasıl Yardımcı Oldu

Araştırmacılar, metin üretmek üzere tasarlanmış üç yaygın yapay zeka sohbet robotuna odaklandı. Her sistemden hematolojiyle ilgili 50 çoktan seçmeli soru yazmaları istendi; hematoloji, anemi ve lösemi gibi kan hastalıklarını inceler. Sorular tıp sınavlarında ve klinik uygulamada sık görülen beş konuyu kapsamalıydı: tüm kan hücrelerinin düşük olması durumu olan pansitopeni, anemi, trombositopeni (düşük platelet), ve miyelo- ile lenfoproliferatif sendromlar adlı iki kan kanseri grubu. Toplamda, sohbet robotları her sistem için yarım dakikadan kısa sürede 150 soru üretti—elle yazmayla karşılaştırıldığında muazzam bir zaman tasarrufu.

Figure 1
Figure 1.

Yapay Zeka Tarafından Yazılan Soruları Mikroskop Altına Almak

Hız tek başına, sorular yanlış, kafa karıştırıcı veya adaletsizse anlamsızdır. Kaliteyi kontrol etmek için, hangi sohbet robotunun hangi soruyu yazdığını bilmeyen üç deneyimli hematoloji öğretmeni her maddeyi ayrıntılı bir kontrol listesiyle puanladı. Bilimsel doğruluk, klinik alaka, ifadelerin açıklığı, yanlış seçeneklerin gerçekçiliği ve genel kaliteyi beş puanlık bir ölçekte değerlendirdiler. Ayrıca her sorunun tıp öğrencileri için uygun zorluk düzeyine sahip olup olmadığını ve güçlü öğrencilerle daha zayıf öğrencileri ayırt edip edemeyeceğini de ölçtüler. 25 puan üzerinden en az 15 puana ulaşan sorular kullanım için kabul edilebilir sayıldı; diğerleri revizyon veya reddetme gerektiriyordu.

Hangi Sohbet Robotu En İyisiydi?

Üç sistemin tamamı çoğunlukla sağlam sorular üretti, ancak bir model öne çıktı. Uzman puanlamalarında bu sohbet robotu doğruluk, klinik alaka ve inandırıcı yanlış cevaplar açısından en yüksek skoru aldı. 50 sorusunun tamamı kabul eşiğini karşıladı ve hiçbirinin değişiklik gerektirmediği belirlendi. Diğer iki model de iyi performans gösterdi: sorularının ondan fazlası kabul edilebilir düzeydeydi ancak genellikle yanlış seçenekte çok bariz bir hata ya da bir ayrıntının daha net olabilmesi nedeniyle küçük düzeltmeler gerekiyordu. Genel olarak, uzmanlar üç aracın da sınıf kullanımı için neredeyse hazır sınav materyalini hızla üretebildiği konusunda hemfikirdi.

Figure 2
Figure 2.

Düşünme Becerileri, Sadece Ezber Değil

Ekip ayrıca bu yapay zeka yazılı soruların öğrencilerden ne tür düşünme becerileri talep ettiğini de inceledi. Eğitmenlerin zihinsel becerileri sınıflandırmak için kullandığı bir çerçeve olan Bloom taksonomisini kullanarak soruları basit bilgi ve kavrayış ile bilgiyi uygulama, durumları analiz etme ve seçenekleri değerlendirme gibi üst düzey beceriler olarak gruplandırdılar. Şaşırtıcı bir şekilde, sohbet robotları ağırlıklı olarak üst düzey sorular üretti. Bir model için maddelerin %90’ından fazlası, öğrencilerin yalnızca bilgi hatırlamak yerine klinik senaryoları akıl yürütmeleri gerektiğini gösteriyordu. Temel ezber soruları üç sistemde genel olarak nadirdi. Bu desen, geniş bağlantılı metinlerle eğitilmiş büyük dil modellerinin basit kart tarzı sorulardan ziyade bağlam zengin, problem çözmeye yönelik senaryolara doğal olarak eğilim gösterdiğini düşündürüyor.

Ümitler, Sınırlamalar ve İnsan Ortaklarına İhtiyaç

Bu güçlü yönlere rağmen çalışma önemli boşluklar ortaya koydu. Sohbet robotlarının hiçbiri kendi başlarına görüntü tabanlı sorular önermedi; oysa hematolojide mikroskop preparatlarını ve laboratuvar grafiklerini yorumlama becerisi çok önemlidir. Görüntü tabanlı maddeler doğrudan istendiğinde iki sistem bunun mümkün olmadığını itiraf etti ve biri düşük kaliteli bir deneme üretti. Çalışma ayrıca öğrenci sınav verilerinden ziyade uzman görüşüne dayanıyordu, dolayısıyla bu soruların gerçek sınavlarda nasıl performans göstereceğini tam olarak kanıtlayamıyor. Yazarlar, öğretmenlerin yine de bilgileri kontrol etmesi, ifadeleri düzeltmesi ve temel kavramların yeterli şekilde kapsandığından emin olması gerektiğini vurguluyor.

Gelecek Tıp Eğitimi İçin Anlamı

Hekim olmayan okuyucu için özet şudur: Yapay zeka tıp öğretim görevlilerinin yerini almıyor, ancak güçlü bir yardımcı haline geliyor. Bu çalışmada sohbet robotları, öğrencilerin kan hastalıklarında karar verme pratiği yapmasına yardımcı olan çoğunlukla doğru, klinik açıdan gerçekçi soruları hızla üretti. Özellikle bir model, uzmanların çok az veya hiç değişiklik yapmadan kullanabileceği kadar yüksek kaliteli sorular üretti. Yine de makineler daha basit bilgi yoklamalarını göz ardı etti ve görsel malzemeyi kendi başlarına işleyemedi. Yazarlar en iyi yaklaşımın bir ortaklık olduğunu; yapay zekanın çeşitli soru taslaklarını hazırlama yükünü üstlenmesi, insan uzmanların ise istemleri yönlendirmesi, eksik temel bilgileri tamamlaması, içeriği doğrulaması ve değişen tıbbi kılavuzlarla uyumlu kalması gerektiğini sonucuna bağlıyor.

Atıf: Boufrikha, W., Sallem, A., Laabidi, B. et al. Evaluation of three artificial intelligence chatbots for generating clinical hematology multiple choice questions for medical students. Sci Rep 16, 5802 (2026). https://doi.org/10.1038/s41598-026-36839-x

Anahtar kelimeler: sağlık eğitimi, yapay zeka, hematoloji, çoktan seçmeli sorular, sohbet robotları