Clear Sky Science · tr
DeepSeek’in radyoloji asistan eğitimi sırasında sınav soruları üretimindeki performansı
Neden daha akıllı sınav soruları önemli
Tıbbi görüntüleme uzmanı adayları, bilgi düzeylerini ve hastaya bakım becerilerini ölçmek için sıkça sınavlara girer. Bu sınav sorularını hazırlamak uzmanlar için çok zaman alır ve eğitim kurumları yapay zekâ araçlarının yardımcı olup olamayacağını sorgulamaktadır. Bu çalışma, DeepSeek adındaki bir büyük dil modelinin radyoloji asistanları için çoktan seçmeli sorular yazarak bu işin bir kısmını paylaşabilip paylaşamayacağını ve insan uzmanların nerede hâlâ açıkça gerekli olduğunu inceledi.

Araştırmacıların öğrenmek istediği
Çin’deki ekip, radyoloji eğitimindeki kilit bir unsura odaklandı: asistanların yıllık ilerlemesini izleyen eğitim içi sınavlar. İki eşleşen soru setini karşılaştırdılar. Bir set, ulusal eğitim standartlarına uygun olarak deneyimli radyologlar tarafından hazırlandı. Diğer set ise konu, asistan seviyesi ve soru türünü belirten özenle tasarlanmış istemler kullanılarak DeepSeek dil modeli tarafından Çince üretilmişti. Tüm sorular aynı kurallara uymalıydı ve kullanılmadan önce doğruluk ve adilliğini sağlamak için kıdemli bir radyolog tarafından tarandı.
Sınav deneyinin nasıl işlediği
Bu soru bankalarından araştırmacılar rastgele 14 yapay zekâ sorusu ve 14 uzman sorusu seçip bunları tek bir 28 maddelik çevrimiçi sınavda karıştırdı. İkinci veya üçüncü yılındaki kırk radyoloji asistanı bu kapalı kitap sınava girdi. Her madde için bir cevap seçtiler, sorunun DeepSeek’ten mi yoksa insan uzmanından mı geldiğini tahmin ettiler ve zorluk, müfredata uygunluk, genel kalite ve klinik hikâyenin ne kadar gerçekçi hissettirdiğini değerlendirdiler. Bu tasarım ekibin yalnızca puanları değil, aynı zamanda soruların öğrenenler üzerindeki hissini de karşılaştırmasına olanak tanıdı.

Yapay zekânın insan yazarlarla eşitlendiği alanlar
Genel sınavda, asistanlar DeepSeek ya da uzmanlar tarafından yazılan sorulardan benzer oranda doğru yanıt aldı ve her bir maddenin kaynağını ayırt etmekte pek başarılı olamadılar. Temel bilgiler ve açık kurallara yönelik en basit soru türünde DeepSeek’in maddeleri insan yazımıyla büyük ölçüde benzer performans gösterdi. Bir sorunun daha güçlü ve daha zayıf öğrencileri ayırma yeteneği gibi testte kullanılan nesnel ölçütler de yapay zekânın ürettiği bu temel bilgi maddelerinin genel olarak sağlam olduğunu öne sürdü. Bu, yapay zekânın temel kavramları pekiştiren, çok sayıda basit soru bankası oluşturmakta eğitmenlerin yükünü hafifletebileceği anlamına geliyor.
İnsan yargısının hâlâ öne geçtiği yerler
Soru daha zengin hasta öyküleri ve daha zor kararlar içerdiğinde tablo değişti. Kısa klinik sahnelerle orta düzey karmaşıklıktaki sorularda, asistanlar yapay zekâ ve uzman sorularına benzer oranlarda doğru yanıt verdi; ancak uzman versiyonlarını daha gerçekçi ve özellikle daha kıdemli, daha fazla gerçek dünya deneyimine sahip asistanlar arasında biraz daha zor olarak puanladılar. Çok adımlı vaka dizileri ve yargı çağrısı içeren en karmaşık sorularda asistanlar, DeepSeek’in versiyonlarına göre uzman tarafından yazılan maddelerde belirgin şekilde daha yüksek puan aldı. Özellikle erken yıl asistanları, yapay zekâ tarafından oluşturulan daha sığ, daha az özgün klinik durumlar tarafından yanıltılma veya kafa karışıklığı yaşama eğilimindeydi.
İnsan ve yapay zekânın birlikte çalışması
Yazarlar katmanlı bir yaklaşım öneriyor. DeepSeek ve benzeri araçlar, standart bilgileri ve tanımları kapsayan temel, iyi yapılandırılmış çok sayıda soruyu taslak olarak hazırlamak için uygundur. İnsan uzmanlar ise belirsizlik içinde nasıl düşünüleceğini, seçeneklerin nasıl tartılacağını ve gerçek klinik ortamlarda değerlerin nasıl uygulanacağını ölçen soruların sorumluluğunu üstlenmeye devam etmelidir. Yapay zekâ ayrıca gözden geçiricilerin zayıf soruları tespit etmesine yardımcı olabilirken, uzmanlar yalnızca hasta bakımıyla kazanılan nüanslı anlayışı sağlar. Net sınırlar ve dikkatli denetim ile yapay zekâyı uzman yargısıyla birleştirmek, tıp sınavlarını hem oluşturma açısından daha verimli hem de gerçekten önemli olanı ölçme bakımından daha iyi hale getirebilir.
Atıf: Qian, W., Li, K., Cao, F. et al. Performance of DeepSeek in the generation of in-training examination questions in radiology resident education. npj Digit. Med. 9, 384 (2026). https://doi.org/10.1038/s41746-026-02568-8
Anahtar kelimeler: radyoloji eğitimi, sınav soruları, yapay zekâ, büyük dil modelleri, tıp eğitimi