Clear Sky Science · tr
Büyük dil modellerinin boron nötron yakalama terapisi bilgisini değerlendirmedeki performans karşılaştırması
Yeni Bir Kanser Radyasyonu Türü İçin Akıllı Eğitmenler
Boron nötron yakalama terapisi (BNCT), tümörleri yok etmeyi hedefleyen ve çevresindeki sağlıklı dokuyu korumayı amaçlayan yeni bir radyasyon tedavisi türüdür. Bu karmaşık terapi araştırma laboratuvarlarından hastanelere yayıldıkça hekimlerin ve eğitim görenlerin çok sayıda yeni, uzmanlaşmış bilgiyi öğrenmesi gerekiyor. Bu çalışma güncel bir soruyu ele alıyor: bugünün yaygın yapay zekâ sohbet botları BNCT öğretimine ve desteğine yardımcı olabilir mi ve yapabiliyorlarsa ne kadar güvenilirler?
BNCT’yi Standart Radyasyondan Farklı Kılan Nedir?
BNCT, standart X‑ray veya proton tedavilerinden çok farklı çalışır. Hastalara tümör hücreleri içinde biriken özel bir boron formu içeren ilaçlar verilir. Bu hücreler daha sonra nötron ışınına maruz kaldığında, boron atomlarında küçük bir nükleer reaksiyon gerçekleşir ve kısa menzilli parçacıklar açığa çıkar; bu parçacıklar kanser hücresini içten öldürürken yakın dokuyu büyük ölçüde korur. Bu yüksek hedefli yaklaşım, tedavisi zor veya oksijeni az tümörler için özellikle ümit vericidir. Yakın zamana kadar BNCT, klinik kullanımını sınırlayan nötron kaynakları olarak nükleer reaktörlere dayanıyordu. 2020’de Japonya’da hızlandırıcı tabanlı BNCT makinelerinin onaylanması ve Çin gibi ülkelerde yeni merkezlerin faaliyete geçmesi BNCT’yi daha fazla hasta için gerçekçi bir seçenek haline getirdi—ve odaklanmış eğitim ve sertifikasyon için acil bir ihtiyaç yarattı.

Dört Önde Gelen YZ’yi Test Etmek
Genel amaçlı sohbet botlarının BNCT konularını ne kadar iyi ele aldığını görmek için araştırmacılar temel kavramları, en son araştırmaları, klinik uygulamayı ve hesaplama ile muhakeme görevlerini kapsayan 47 soruluk bir test hazırladı. Sorular hem Çince hem İngilizce yazıldı ve basit gerçekleri (tanımlar gibi) ile mantık veya sayısal çalışma gerektiren daha zorlu problemleri içeriyordu. Farklı şirketlere ait yaygın kullanılan sistemlerle temsil edilen dört büyük YZ ailesi, beş ayrı zaman diliminde, iki dilde ve iki soru sorma biçiminde (basit doğrudan sorular ve kısa klinik senaryo içinde sunulan sorular) test edildi. İnsan kanser bakım uzmanları her cevabı standart bir anahtara göre puanladı ve ekip ayrıca YZ’lerin ‘‘bilmiyorum’’ gibi ifadelerle belirsizliği kabul etme sıklığını da izledi.
Kim Daha İyi Yanıtladı ve Hangi Tür Sorularda?
Genel olarak, iki model ailesi diğer ikisinden açıkça daha iyi performans gösterdi. En güçlü sistem yaklaşık %73 doğruluğa ulaşırken ikinci en iyi yaklaşık %70’teydi; geri kalan modeller ise sırasıyla yaklaşık %62 ve %56 puan aldı. İlginç biçimde, en iyi performans gösterenler yalnızca ezberlenmiş gerçeklerde üstün değillerdi. Bu sistemler dar kapsamlı bu tıbbi alanda çok adımlı düşünme gerektiren doz hesapları veya planlama tarzı problemler gibi muhakeme ağırlıklı sorularda belirgin şekilde daha iyiydi. Bir model gerçek ve muhakeme öğelerinde neredeyse aynı puanları gösterirken, başka bir model genel olarak geride kaldı fakat muhakemede gerçeklere göre biraz daha iyi performans sergiledi.
Güncellemeler, Diller ve ‘‘Bilmiyorum’’ Demeye İsteklilik
YZ sistemleri sık güncellendiği için araştırmacılar ayrıca performansın 2023 sonundan 2025 ortalarına yayılmış beş test turu boyunca nasıl değiştiğini inceledi. Büyük sürüm yükseltmeleri genellikle doğrulukta belirgin sıçramalar getirirken, aynı sürüm içindeki küçük düzeltmeler çok az fark yarattı. Bir aile zaman içinde %60’ın altından %80’in üzerine çıktı; bu da teknolojinin ne kadar hızlı ilerlediğini gösteriyor. Soru Çince veya İngilizce sorulması ya da doğrudan mı yoksa rol yapma kurgusuna sarılarak mı sorulmasının, her modelin doğasında olan güçlere kıyasla yalnızca küçük etkileri oldu. Daha çarpıcı olan, sistemlerin yanlış olduklarında ne kadar açık olduklarındaki farklardı. Bazı modeller yanlış cevapların neredeyse beşte birinde belirsizliği kabul ederken, bir diğeri nadiren bunu yapıyor ve bunun yerine sıklıkla kendinden emin ama hatalı yanıtlar veriyordu.

Bu Hekimler, Öğrenciler ve Hastalar İçin Ne Anlama Geliyor?
Çalışma, bugünün en iyi genel amaçlı sohbet botlarının BNCT hakkında makul düzeyde doğru açıklamalar ve alıştırma soruları sunabildiğini; dolayısıyla eğitim ve kendi kendine çalışma için ümit verici yardımcılar olduğunu sonucuna varıyor. Ancak hiçbir sistem henüz tüm BNCT sorularını doğru yanıtlayacak güvenilirlikte değil ve belirsizliği ifade etme ya da gizleme biçimleri güvenlik açısından önemli farklılıklar gösteriyor. Şimdilik bu araçlar uzman değerlendirmesinin yerini almak yerine destekleyen akıllı asistanlar olarak görülmeli. Yazarlar, BNCT’ye odaklanmış özel YZ modelleri ile bu tür araçların kliniklerde ve sınıflarda nasıl kullanılacağına dair açık standartların gerekeceğini; ancak o zaman YZ’nin bu uzmanlaşmış kanser bakımının ön saflarında güvenilir bir rol oynayabileceğini savunuyorlar.
Atıf: Shen, S., Wang, S., Gao, M. et al. Performance comparison of large language models in boron neutron capture therapy knowledge assessment. Sci Rep 16, 5321 (2026). https://doi.org/10.1038/s41598-026-36322-7
Anahtar kelimeler: boron nötron yakalama terapisi, kanser radyasyonu, tıp eğitimi, yapay zeka, büyük dil modelleri