Clear Sky Science · tr

Son ve önceki büyük dil modellerinin ve pediatri asistanlarının pediatrik eğitim sınavı sorularındaki karşılaştırmalı performansı

2026-04-02 · Dizine geri dön

Bu durum doktorlar ve aileler için neden önemli

Yapay zeka araçları hastanelerde ve tıp fakültelerinde görünmeye başladıkça temel bir soru ortaya çıkıyor: özellikle çocuk sağlığı söz konusu olduğunda bu sistemler gerçekten eğitimdeki doktorların yargısıyla eşleşebiliyor mu? Bu çalışma, önde gelen birkaç yapay zeka dil modelinin pediatrik sınav sorularındaki performansını ve bunun gelecekte bakım ve eğitim için ne anlama gelebileceğini inceliyor.

Gerçek sınav sorularında yapay zekayı test etmek

Araştırmacılar, 2016 ile 2023 yılları arasında Kore’de büyük bir çocuk hastanesinde yapılan pediatrik eğitim sınavlarından 498 soru topladı. Bu sınavlar, asistanların dört yıllık eğitim sürecinde ne kadar ilerlediğini ölçmek için kullanılıyor. Soruların çoğu çoktan seçmeli olup yenidoğan bakımı ve enfeksiyonlardan kalp hastalıkları ve kritik bakıma kadar geniş bir uzmanlık yelpazesini kapsıyordu. Yaklaşık beşte bir soru, röntgen, görüntüleme veya klinik fotoğraf gibi tıbbi görseller içerirken, geri kalanı yalnızca yazılı açıklamalara dayanıyordu.

Figure 1. Yapay zeka sistemleri ile pediatri asistanları, çocuk sağlığı bilgisini ölçen yazılı sınav sorularında karşılaştırılıyor.

İnsanlar ve makineler nasıl karşılaştırıldı

Üç ana aileyi ve her aile için iki nesli temsil eden altı tanınmış yapay zeka dil modeli test edildi: önceki sürümler ve görsel yeteneklere sahip daha yeni sürümler. Modellere tek tek sorular değil, tam sınav kitapçıkları verildi ve hangi bölümlerin soru metni, hangi bölümlerin cevap şıkları ve hangi bölümlerin görsel olduğunu kendilerinin belirlemesi bekleniyordu. Sorular orijinalde Korece olarak yazılmış olup İngilizce tıbbi terimler içeriyordu ve dikkatle kontrol edilmiş çeviriler sağlandı. Hem asistanlar hem de yapay zekalar aynı kurallara göre notlandırıldı; resmi çözümle veya kabul edilmiş bir eşanlamlıyla eşleşen cevaplar doğru sayıldı. Sistemlerin tutarlılığını görmek için her test seti beş kez çalıştırıldı ve çalışma tekrarları arasındaki tutarlılık hesaplandı.

Yapay zekanın pediatri asistanlarına karşı performansı

Performans, doğru yanıtlanan soru oranı olarak özetlendi. Beklenildiği üzere insan puanları eğitim düzeyiyle yükseldi: birinci sınıf asistanlar soruların biraz üzerini doğru yanıtlarken, dördüncü sınıf asistanlar yaklaşık yüzde 70’e ulaştı. Daha yeni yapay zeka modelleri genel olarak daha iyi performans gösterdi; tüm sorular için yaklaşık yüzde 78 puan alarak en kıdemli asistanları açıkça geride bıraktı. Önceki yapay zeka sürümleri kıdemli asistanlarla denk performans gösterdi. Araştırmacılar yalnızca metin tabanlı sorulara odaklandığında, yeni modeller dördüncü sınıf asistanlardan yaklaşık 10 puan daha yüksek skor elde etti. Yapay zeka sistemleri ayrıca çalıştırmalar arasında neredeyse aynı puanlarla çok tutarlı idi.

Figure 2. Yapay zeka modelleri, pediatrik sınav problemlerini yanıtlarken görsel tabanlı sorulara kıyasla metin sorularını daha iyi işliyor.

Görsellerle ilgili zorluklar

Tıbbi görseller devreye girince tablo değişti. Görsel içeren sorularda hiçbir yapay zeka sistemi kıdemli asistanları geride bırakmadı. Yeni modeller seleflerinden daha iyi performans gösterdi ve bu görsel maddelerde ortalama yüzde 70’lerin ortalarına ulaştı, ancak sonuçları hâlâ yalnızca metin içeren sorulardaki güçlü performanslarının gerisindeydi. Bu desen, röntgenler, görüntülemeler ve klinik fotoğraflar da dahil olmak üzere farklı görüntü türleri ve geniş bir pediatrik konu yelpazesi boyunca sürdü. Bulgular, dil modellerinin metni okuma ve metinle düşünmede güçlü olduğunu, ancak özellikle çocuklara ait tıbbi görüntülerin anlaşılmasında yeteneklerinin hâlâ sınırlı olduğunu öne süren diğer araştırmalarla uyumlu.

Bakım ve eğitim için anlamı

Yazarlar, bu sonuçların eğitim açısından cesaret verici olduğunu ancak doğrudan klinik kullanım için temkinli olunması gerektiğini savunuyor. Yazılı sınav sorularında elde edilen yüksek ve istikrarlı puanlar, bu tür sistemlerin pediatri eğitiminde yararlı çalışma arkadaşları olarak hizmet edebileceğini, asistanlara hızlı uygulama soruları ve açıklamalar sağlayabileceğini gösteriyor. Ancak çoktan seçmeli testlerdeki başarı, bilgilerin daha karışık olduğu, kararların daha karmaşık olduğu ve görüntü yorumunun kritik olduğu gerçek hastalarda güvenli performans garantilemez. Kısacası, bugünün çok modlu yapay zeka araçları yazılı pediatrik sınavlarda kıdemli asistanlarla rekabet edebilecek düzeye gelmiş olsa da, görsel ağırlıklı görevlerde hâlâ yetersiz kalıyor ve klinikte insan yargısının yerini almaya henüz hazır değiller.

Atıf: Kim, M.J., Park, J.S. & Kang, S.H. Comparative performance of recent and prior large language models and pediatric residents on pediatric in-training examination questions. Sci Rep 16, 15849 (2026). https://doi.org/10.1038/s41598-026-44333-7

Anahtar kelimeler: pediatri, büyük dil modelleri, tıp sınavları, klinik karar destek, tıp eğitimi