Clear Sky Science · tr
PsychiatryBench: LLM’ler için psikiyatride çok görevli bir kıyaslama
Bu çalışmanın ruh sağlığı ve yapay zeka için önemi
Ruh sağlığı sorunları dünya çapında yüz milyonlarca insanı etkiliyor, ancak birçoğu zamanında ve yüksek kalitede bakım almıyor. Aynı zamanda büyük dil modellerine (LLM’ler) dayanan güçlü sohbet botları hızla doktor muayenehanelerine, terapi uygulamalarına ve günlük arama motorlarına giriyor. Bu makale PsychiatryBench’i tanıtıyor: bu sistemlerin psikiyatrik tıbbı gerçekten ne kadar anladığını test etmenin yeni bir yolu. Basit ama acil bir soruyu soruyor: bugünün yapay zeka araçları, karmaşık ruh sağlığı vakalarını güvenli, güvenilir ve uzman standartlarına yakın bir şekilde değerlendirebiliyor mu?
Gerçek klinik bilgiden oluşturulmuş yeni bir test
Önceki birçok girişim, yapay zekayı ruh sağlığında değerlendirmek için sosyal medya gönderilerine, küçük mülakat dökümlerine veya hatta diğer yapay zeka sistemleri tarafından oluşturulmuş konuşmalara dayanıyordu. Bunlar, psikiyatristleri eğitmek için kullanılan dikkatle gerekçelendirilmiş vaka hikâyeleri ve sınav sorularından çok uzak. PsychiatryBench farklı bir yol izliyor. Yazarlar yalnızca güvenilir psikiyatri ders kitapları, vaka kitapları ve kendi kendine sınav kılavuzlarından seçilmiş 5.188 maddelik bir soru seti oluşturdu. Kıyaslama; tanı koyma ve tedavi seçme gibi görevlerden sürekli bakım planlamaya, temel bilgi sorularını yanıtlamaya ve bir vakayı zaman içinde izlemeye kadar on bir tür görevi kapsıyor. Odak, acil dramatik durumlardan ziyade örtüşen semptomlar, tıbbi yan etkiler ve uzun vadeli yönetimin değerlendirilmesi gereken ayaktan yetişkin ve geriatri psikiyatrisidir.

Yapay zeka modelleri nasıl sınandı
Ekip, büyük teknoloji şirketlerinden genel amaçlı sistemler ve tıbba özgü birkaç model de dahil olmak üzere on beş önde gelen LLM’i değerlendirdi. Çoktan seçmeli sorular gibi yapılandırılmış görevler için cevapları olağan şekilde puanladılar. “Bu vakayı nasıl yönetirdiniz?” gibi açık uçlu yanıtlar içinse, her yanıtı bir uzman referansla 0–100 benzerlik ölçeğinde karşılaştırmak üzere nötr bir yargıç olarak başka güçlü bir dil modelini kullandılar. Bu, sadece bilgi çağrısını değil aynı zamanda muhakeme kalitesini ve yapay zekanın klinik mantığının deneyimli psikiyatristlerin mantığına ne kadar yakın olduğunu incelemelerine olanak verdi. Bir seçenekler listesi birkaç vinyete doğru şekilde uygulanması gereken genişletilmiş eşleme maddeleri gibi karmaşık sınav formatları için özel puanlama yöntemleri kullanıldı.
Bugünün sistemlerinin yapabildikleri ve eksiklikleri
Tüm kıyaslama boyunca, belirgin bir üst grup ortaya çıktı. GPT‑5 Medium ve Claude Sonnet 4.5’in “düşünme” modundaki gibi daha yeni genel amaçlı sistemler ortalama puanları %80’lerin ortalarına kadar taşıdı ve tanı, tedavi planlaması ve çok adımlı takip soruları gibi zor görevlerde güçlü performans gösterdi. Ayrıca çok farklı görev formatlarında nispeten istikrarlı performans sergilediler; bu da dar taktik öğrenmeden ziyade sağlam muhakemeyi işaret ediyor. Buna karşılık, daha küçük veya daha eski modeller geride kaldı ve bazı tıbbi‑özgü modeller, bilgi ağırlıklı sınavlarda yüksek puanlarla açık uçlu klinik muhakemede zayıf performans arasında geniş dalgalanmalar gösterdi. Liderler bile en zor görevlerde zorlandı: örtüşen semptomlara sahip spesifik bozuklukların ince sınıflandırılması ve birbirine çok benzeyen birçok seçenek arasından seçim yapmayı gerektiren sınav maddeleri gibi.
Tıbbi yapay zekada genelci‑uzman paradoksu
En çarpıcı bulgulardan biri, karmaşık psikiyatrik muhakeme söz konusu olduğunda çeşitli metin türleri üzerinde genişçe eğitilmiş modellerin biyomedikal literatüre özel olarak eğitilmiş modelleri sık sık geride bırakması oldu. MedGemma gibi uzmanlaşmış tıbbi modeller çoktan seçmeli sorular ve ayrıntılı bozukluk etiketleri gibi bilgi‑yoğun görevlerde üstünlük sağlasa da, genellikle gerçek klinik ziyaretleri yansıtan esnek, anlatısal görevlerde geride kaldılar. Bu “genelci‑uzman paradoksu”, yalnızca tıbbi metne maruz kalmanın yeterli olmadığını; bağlamı bütünleştirme, belirsizlikle başa çıkma ve hipotezleri gözden geçirme yetisinin—güçlü genel modellerin yaptığı gibi—psikiyatri için belirleyici olduğunu öne sürüyor. Aynı zamanda çalışma, daha fazla “düşünme” adımı eklemenin bazı mimarilere yardımcı olduğunu bazılarına ise olmadığını gösteriyor; bu da yararlı dikkatli sorgulamanın yapay zekâda özenle tasarlanması gerektiğini işaret ediyor, sadece zorla uygulanmaması gerektiğini.

Sınırlamalar, güvenlik önlemleri ve sonraki adımlar
Cesaret verici puanlara rağmen, yazarlar bu sistemlerin gözetimsiz klinik kararlar vermeye hazır olmadığını vurguluyor. Kıyaslama düzgünleştirilmiş ders kitabı vakalarına dayanıyor; dağınık gerçek dünya kayıtları, krizler veya kültürel olarak farklı sunumlar dahil değil. Bir sohbet botunun aktif intihar eğilimi olan bir kişiyi nasıl ele alacağı, sanrıları güçlendirip güçlendirmeyeceği veya güveni zedeleyecek şekilde yanıt verip vermeyeceği test edilmedi. Puanlama kendisi başka bir yapay zekâ yargıcına dayanıyor; bu da kendi önyargılarını getiriyor. Sonuç olarak PsychiatryBench temelde bir laboratuvar testi olarak görülmeli, bir güvenlik sertifikası olarak değil. Yazarlar, şimdilik LLM’lerin eğitim, dokümantasyon ve dikkatli insan denetimi altında erken fikir üretme desteği verme konusunda en uygun olduğunu savunuyor.
Bu hastalar ve klinisyenler için ne anlama geliyor
Halk için çıkarım hem umut verici hem de ihtiyatlı. Modern dil modelleri, özellikle yapılandırılmış, ders kitabı benzeri ortamlarda uzman psikiyatrik muhakemenin parçalarını taklit etmeye başlıyor. Zaten öğrencilere pratikte yardımcı olabilir, klinisyenlere özetlerde destek verebilir ve kılavuz‑temelli seçenekleri öne çıkarabilirler. Ancak ince tanı, çoklu etiketleme ve belirsiz vakaların ele alınması gibi hataların en zararlı olabileceği alanlarda öngörülebilir kör noktalar sergiliyorlar. PsychiatryBench bu güçlü ve zayıf yönleri aydınlatıyor, ilerlemeyi izlemek ve daha güvenli sistemler tasarlamak için şeffaf bir yol sunuyor. Basitçe söylemek gerekirse, çalışma yapay zekânın ruh sağlığı bakımında faydalı bir yardımcı olabileceğini gösteriyor; fakat yetenekleri dürüstçe ölçülür ve rolü eğitimli profesyonellerin rehberliği altında kesinlikle tutulursa.
Atıf: Fouda, A.E., Hassan, A.A., Hanafy, R.J. et al. PsychiatryBench: a multi-task benchmark for LLMs in psychiatry. npj Digit. Med. 9, 320 (2026). https://doi.org/10.1038/s41746-026-02582-w
Anahtar kelimeler: psikiyatri kıyaslaması, büyük dil modelleri, ruh sağlığı yapay zekası, klinik muhakeme, tıbbi değerlendirme veri setleri