Clear Sky Science · tr
Japonya Ulusal Veterinerlik Lisanslama Sınavında üretken önceden eğitilmiş dönüştürücünün performans değerlendirmesi
Daha akıllı veteriner sınavlarının herkes için önemi
Her hayvan hastanesi başvurusu, yıllarca süren sıkı bir eğitimin ve yüksek riskli bir ulusal sınavın arkasında yatar. Japonya’da veteriner olmak isteyenler, temel biyolojiden karmaşık klinik muhakemeye kadar her şeyi ölçen Ulusal Veterinerlik Lisanslama Sınavı’nı (NVLE) geçmek zorundadır. Bu çalışma güncel bir soruyu yanıtlamayı amaçladı: bugün popüler sohbet botlarını çalıştıran gelişmiş yapay zeka dil modelleri bu zorlu sınavı Japonca olarak çözebilir mi — ve bu durum veterinerlik eğitimi ve hayvan bakımına ne anlama gelebilir?

Gerçek bir veteriner lisanslama sınavında yapay zekayı test etmek
Araştırmacılar OpenAI’nin üç kuşak büyük dil modeline odaklandı: GPT‑4o, o1 ve o3. Bu sistemler insan benzeri metinleri okumak ve üretmek için tasarlandı, ancak veterinerlik mesleği için özel olarak eğitilmediler. Test için ekip, karşılaştırma ölçütü olarak Japonya’nın 74. NVLE’sini (2023) kullandı. Sınav beş bölüme ayrılıyor; yalnızca metin soruları ile röntgen, fotoğraf veya diyagram gösteren görsel ağırlıklı soruları içeriyor. Tüm sorular öğrencilerin girdiği gerçek sınavdaki gibi beş seçenekli çoktan seçmeliydi. Modeller her soruyu standartlaştırılmış bir bilgisayar betiği aracılığıyla aldı ve yalnızca seçilen seçenek numarasını yanıt olarak vermeleri istendi; açıklama yapma veya yanıtı pazarlıkla düzeltme şansı yoktu.
Hangi yapay zeka modeli öne çıktı?
Üç model 74. NVLE’yi en basit kurulumla—Japonca sorular ve sade bir talimat istemiyle—çözerken iki belirgin eğilim ortaya çıktı. Birincisi, tüm modeller metin tabanlı bölümlerde güçlü performans gösterdi; ancak o1 ve o3 tutarlı şekilde GPT‑4o’dan daha yüksek puan aldı. İkincisi, görsel ağırlıklı bölümlerde performans düştü, yine de o1 ve o3 resmi asgari geçme oranının üzerinde kalırken GPT‑4o bu bölümlerden birinde başarısız oldu. Genel olarak GPT‑4o soruların yaklaşık %78’ini doğru yanıtlarken, o1 yaklaşık %92 ve o3 yaklaşık %93 doğru yaptı. o3 toplam puanda o1’i hafifçe geride bıraktığı için araştırmacılar sonraki deneylerde o3’ü seçtiler.

İstemler veya çeviriler gerçekten yardımcı oluyor mu?
“İstem mühendisliği” — yapay zekadan daha iyi yanıtlar almak için ayrıntılı talimatlar hazırlama — ve yerel sınav sorularını modellerin eğitim verileriyle daha uyumlu hale getirmek için İngilizceye çevirme hakkında çok şey yazıldı. Çalışma bu fikirleri o3 modeliyle doğrudan test etti: temel bir çözüm istemi ile daha ayrıntılı, optimize edilmiş bir istem; ve Japonca sorular ile önce aynı model tarafından İngilizceye çevrilmiş sürümler karşılaştırıldı. İlginç olan, bu değişikliklerin anlamlı bir fark yaratmamasıydı: o3 altı kombinasyonun tamamında rahatça geçti ve en basit yaklaşım (orijinal Japonca metin ve temel istem) daha karmaşık kurulumlarla aynı derecede iyi çalıştı. Bu, en azından bu veterinerlik soruları için en yeni modellerin Japoncayı güvenilir şekilde zaten anladığını ve yüksek performans için karmaşık istemlere ihtiyaç duymadığını gösteriyor.
Daha yeni sınavlarda performans ne kadar kararlı?
Güçlü sonuçların bir rastlantı olup olmadığını görmek için ekip, o3’e 75. (2024) ve 76. (2025) NVLE’lerini de verdi; yine yalnızca orijinal Japonca sorular ve normal istem kullanıldı. Model her iki sınavda da genel puanlarda %92’nin üzerinde elde etti ve görsel ağırlıklı alanlar da dahil olmak üzere tüm bölümlerde geçme eşiğini aştı. Çoğu soru, üç bağımsız çalışmada aynı yanıtı aldı; bu o3’ün biraz rastgelelik olsa bile yanıtlarının genelde tutarlı olduğunu gösterdi. Araştırmacılar modelin hatalarını yakından incelediklerinde, hataların iki alanda kümelendiğini buldular: uygulamalı veteriner bilgisi (örneğin Japon veterinerlik yasaları) ve ülkeye özgü kurallar ve çok adımlı muhakeme gerektiren klinik tıp.
Bu ne anlama geliyor — ve ne anlama gelmiyor
Çalışma sonuç olarak, son teknoloji GPT tarzı modellerin artık Japonca olarak Japonya’nın veterinerlik lisanslama sınavını geçebildiğini, çeviri numaraları veya karmaşık istemlere ihtiyaç duymadan yapabildiğini belirtiyor. Veteriner fakülteleri ve öğrenciler için bu, yapay zekayı çalışma arkadaşı, soru üreteci veya sınav konularını açıklayan bir araç olarak kullanma olanağı sunuyor. Kamu için ise bu, yapay zekanın veterinerlik bilgisini düzenleme ve paylaşma konusunda güçlü bir araç haline geldiğinin bir işareti. Ancak yazarlar bu sistemlerin veterinerlerin yerini alacak veya kendi başına tıbbi kararlar verecek kadar hazır olmadığını vurguluyor. Modeller hâlâ görselleri yanlış anlayabilir, nüanslı klinik muhakeme ile zorlanabilir ve bazen yanlış bilgi uydurabilirler. Dikkatli kullanıldıklarında veterinerlik eğitimi ve bilgi desteğinde değerli yardımcılar olabilirler — ancak hayvan sağlığına ilişkin sorumluluk kesinlikle insanlarda kalacaktır.
Atıf: Kako, T., Kato, D., Iguchi, T. et al. Performance evaluation of generative pre-trained transformer on the National Veterinary Licensing Examination in Japan. Sci Rep 16, 4306 (2026). https://doi.org/10.1038/s41598-026-37300-9
Anahtar kelimeler: veterinerlik lisans sınavları, büyük dil modelleri, tıpta yapay zeka, GPT performansı, Japon veterinerlik eğitimi