Clear Sky Science · tr
MediQAl: Bilgi ve Muhakeme Değerlendirmesi İçin Fransızca Tıbbi Soru-Cevap Veri Kümesi
Fransızcada tıbbi yapay zekâyı test etmenin önemi
Günümüzde birçok insan sağlık bilgisi için çevrimiçi araçlara, kimi zaman yapay zekâ destekli olanlara başvuruyor. Ancak bu sistemlerin büyük çoğunluğu İngilizce olarak eğitilip sınanıyor; oysa milyonlarca hasta ve hekim başka dillerde çalışıyor. Bu makale, günümüz yapay zekâ sistemlerinin Fransızca tıbbı ne kadar anladığını ve akıl yürütme yeteneğini nerede eksik bıraktığını açığa çıkarmak için tasarlanmış geniş bir Fransızca tıp sınavı soruları derlemesi olan MediQAl’i sunuyor.
Gerçek tıp sınav sorularından oluşan yeni bir havuz
MediQAl’in merkezi, Fransa’nın ulusal tıp lisanslama sınavlarından alınmış 32.603 soruluk bir koleksiyondur. Akademik ve hastane uzmanları tarafından hazırlanan bu yüksek riskli sınavlar gerçek klinik uygulamayı yansıtacak şekilde kurgulanır: ders kitabı bilgilerini, semptomların zaman içinde geliştiği ve önemli ipuçlarının yalnızca ima edilebileceği dağınık, gerçek dünya senaryolarıyla harmanlar. Fransız sınav üslubu makineler için ekstra zorluk yaratır: sorular uzun, cümleler karmaşık ve tuzaklar sıklıkla olumsuzlamalar veya “aşağıdakilerin hepsi doğrudur, hariç…” gibi istisnalara dayanır. Bu özgün yapıyı koruyarak MediQAl, tıbbi yapay zekâyı basitleştirilmiş sınıf örneklerinin ötesinde test etmek için zorlayıcı ve gerçekçi bir ortam sunar.

Bir yapay zekâ doktoruna üç soru biçimi
MediQAl, hekimlerin sınandığı biçimleri yansıtan üç görev türü halinde düzenlenmiştir. Birinci ve en büyük grup, beş seçenekten yalnızca birinin doğru olduğu tek cevaplı çoktan seçmeli sorulardır. İkinci grup, birkaç doğru seçeneğe izin vererek sistemleri bir hekimin aynı anda birden çok olası komplikasyonu değerlendirmesi gibi bulguların kombinasyonlarını tartmaya zorlar. Üçüncü grup ise, sistemin listeden seçim yapmak yerine kendi kısa cevabını üretmesi gereken kısa, açık uçlu sorulardan oluşur. Her soru ya doğrudan anlama (bilgiyi hatırlama veya uygulama) ya da gerçek muhakeme (çok adımlı düşünme, ipuçlarını birleştirme ya da belirsizlikle başa çıkma) olarak etiketlenmiştir. Bu yapı, araştırmacıların bir yapay zekânın yalnızca ne bildiğini değil olguyu nasıl çözdüğünü de incelemesine imkân tanır.
Veri kümesi nasıl oluşturuldu ve kontrol edildi
MediQAl’ı toplamak için yazar, öğrenciler ve öğretmenlerin geçmiş sınav sorularını paylaştığı eğitim siteleri ve resmi materyalleri kazıdı. Çoktan seçmeli sorular otomatik olarak çıkarılırken, daha az yapılandırılmış açık uçlu sorular web sayfaları ve PDF’lerden desen eşleştirme ile manuel kürasyon karışımı gerektirdi. Cevabı eksik olan, resim veya tablo içeren, çok uzun serbest metin cevaplı ve hem sorularda hem çözümlerde benzerlik ölçüleri kullanılarak tespit edilen neredeyse kopya sorular çıkarıldı. En zor materyali test bölümünde toplamak için üç küçük yapay zekâ modele sorular cevaplatıldı: en az bir modelin çözdüğü herhangi bir madde test için çok kolay kabul edilerek eğitim veya doğrulama setlerine yönlendirildi. Ardından bir tıp uzmanı, medikal açıdan sağlam ve uygun biçimlendirilmiş olduğunu doğrulamak için katmanlı örnekleme ile seçilmiş 150 soruyu inceledi; küçük bir kısım tarihli veya belirsiz olarak işaretlendi.
Önde gelen yapay zekâ modellerini sınamak
MediQAl hazır olunca, çalışma ticari olarak bilinen sistemlerden ilaç veya adım adım muhakeme için ayarlanmış açık kaynak modellere kadar 14 büyük dil modelini değerlendirdi. Hepsi “sıfır atış” (zero-shot) ayarında test edildi; yani görev-özel rehberlik olmadan yanıt vermeleri istendi. Sonuçlar belirgin kalıpları gösteriyor. Birincisi, her model ve görev türünde basit bilgi hatırlama sorularında performans mantıklı olarak muhakeme ağırlıklı sorulardan daha yüksek. Ortalama olarak, muhakeme sorularındaki doğruluk anlama sorularına göre birkaç puan düşüyor; açık uçlu cevaplarda bu fark özellikle büyük. İkincisi, özellikle en zor sorularda akıl yürütme amacıyla açıkça eğitilmiş modeller “vanilya” muadillerinden genellikle daha iyi performans gösterse de uygulayıcı klinisyenlerin beklediği güvenilirliğe hâlâ uzaklar. Üçüncüsü, başarı uzmanlık alanına göre büyük ölçüde değişiyor: genetik, dermatoloji veya bakteriyoloji gibi konular nispeten iyi ele alınırken, psikiyatri, epidemiyoloji, iş sağlığı ve karmaşık açık olgular gibi alanlar zor kalmaya devam ediyor.

Hastalar ve uygulayıcılar için anlamı
MediQAl, Fransızca’da ve 41 uzmanlık alanında tıbbi yapay zekâyı, makinelere değil geleceğin hekimlerine yönelik hazırlanmış sorular kullanarak test eden büyük, özenle kürlenmiş bir kıyas sunarak önemli bir boşluğu dolduruyor. Bulgular, üst düzey sistemlerin sık sık bilgileri doğru hatırlayabildiğini ve bazen sınav stili cevaplarla eşleşebildiğini gösterse de, nüanslı klinik öyküler üzerinde akıl yürütmeleri istendiğinde hâlâ zorlandıklarını; özellikle İngilizce dışındaki dillerde ve bazı alanlarda bunun belirgin olduğunu ortaya koyuyor. Hastalar ve sağlık sağlayıcıları için mesaj net: mevcut yapay zekâ araçları faydalı asistanlar olabilir, ancak insan yargısının yerini almaya hazır değiller ve sınırları dil ve uzmanlığa göre güçlü biçimde değişiyor. Araştırmacılar ve düzenleyiciler için ise MediQAl, Fransızca’da İngilizce kadar iyi çalışan, güvenli ve adil tıbbi yapay zekâ alanındaki ilerlemeyi izlemek için herkese açık, yeniden kullanılabilir bir test ortamı sağlıyor.
Atıf: Bazoge, A. MediQAl: A French Medical Question Answering Dataset for Knowledge and Reasoning Evaluation. Sci Data 13, 356 (2026). https://doi.org/10.1038/s41597-026-06680-y
Anahtar kelimeler: tıbbi soru-cevap, Fransızca yapay zeka, klinik akıl yürütme, büyük dil modelleri, tıp sınavları