Clear Sky Science · tr

Ağız patolojisinde karar destek aracı olarak büyük dil modellerinin karşılaştırmalı analizi

· Dizine geri dön

Ağız hekimliğinde akıllı sohbetbotlar neden önemli

Çoğu insan artık cep telefonlarında güçlü yapay zekâ taşıyor; bunlar, saniyeler içinde soruları yanıtlayan dostça sohbetbotlar şeklinde paketlenmiş durumda. Peki bu araçlar, ağızdaki bir lekenin zararsız mı yoksa ciddi bir sürecin başlangıcı mı olduğunu ortaya çıkaran küçük doku değişikliklerini güvenli şekilde değerlendirmede hekimlere yardımcı olabilir mi? Bu çalışma tam da bunu sorguluyor: mikroskop tanımları üzerinden hastalık teşhisi koyan uzmanları destekleme konusunda dört yaygın sohbetbotu karşılaştırıyor.

Figure 1
Figure 1.

Çalışma sohbetbotları nasıl teste tabi tuttu

Araştırmacılar, ağız ve çene biyopsilerinde patologların mikroskop altında gördüklerini tanımlayan 102 gerçek raporu topladı. Bu raporlar, mukus dolu kistimsi şişliklerden ve fibromalardan ağız epitel displazisi ve tam gelişmiş skuamöz hücreli karsinom gibi potansiyel olarak kanseröz değişikliklere kadar geniş bir sorun yelpazesini kapsıyordu. Her vaka için ekip, aynı metin raporunu ve yaş, cinsiyet, lezyon yeri gibi temel hasta bilgilerini dört sohbetbota verdi: ChatGPT-4.0, muhakemeye odaklı ChatGPT o1-preview, LLaMA-3 tabanlı Meta AI ve Google’ın Gemini’si. Her sohbetbottan bir ana tanı ve üç olası alternatif istenerek klinisyenin hızlı bir ikinci görüş arayışını taklit ettiler.

Cevapları insan uzmanlara karşı puanlamak

İki sertifikalı ağız patoloğu bağımsız olarak ve ardından fikir birliğine vararak her sohbetbotunun ana önerisini hastane kaydındaki orijinal tanıyla karşılaştırdı. Yanıtları üç gruba ayırdılar: açıkça yanlış; benzer veya kısmen doğru (örneğin birleşik bir tanının yalnızca bir bölümünü yakalamak veya farklı ama klinik olarak eşdeğer bir terim kullanmak); ya da tamamen doğru. Ekip ayrıca, ana tanıyı kaçıran bir sohbetbotun yine de doğru cevabı üç alternatif arasında listeleyip listelemediğini kontrol etti. Standart istatistiksel yöntemler kullanarak her sistemin insan uzmanlarla ne sıklıkta uyuştuğunu karşılaştırdılar ve sonuçların hasta yaşı veya cinsiyetiyle değişip değişmediğini incelediler.

Figure 2
Figure 2.

Hangi sohbetbot uzmanlara en yakın çıktı

Muhakemeye odaklı ChatGPT o1-preview en güvenilir desteği sundu: ana tanısı uzmanlarla yaklaşık üç vakadan ikisinde (yüzde 68,6) eşleşti; Meta AI onu yakından izledi (yüzde 65,7). ChatGPT-4.0 orta düzeyde performans gösterdi (yüzde 59,8), Gemini ise yalnızca yaklaşık dört vaka için birinde doğru cevap verdi (yüzde 27,5). Uyum daha katı ölçüldüğünde, ChatGPT o1-preview ve Meta AI ağız patologlarıyla istatistikçilerin “önemli” dediği düzeyde uyum sağlarken, ChatGPT-4.0 “orta” düzeyde uyum gösterdi ve Gemini “zayıf” uyum sergiledi. Tüm sohbetbotlar, mukozele ve fibrom gibi yaygın, net tanımlı iyi huylu sorunlarda daha başarılıydı; ağız epitel displazisi veya nadir lezyonlar gibi daha karmaşık durumlarda ise düzenli olarak zorlandılar.

Makinelerin hâlâ eksik kaldığı noktalar

Sohbetbotlara üç alternatif tanı listesi sunulduğunda bile çoğu zaman doğru tanıyı içermedikleri, özellikle Gemini ve Meta AI için bunun sık olduğu görüldü. Çalışma ayrıca çoğu modelde performansın yaşlı hastalarda biraz düştüğünü buldu; bunun nedeni yaşa bağlı doku değişikliklerinin mikroskop görünümünü karmaşıklaştırması olabilir. Buna karşılık, hiçbir sistem erkekler ve kadınlar arasında belirgin bir fark göstermedi. Yazarlar temkinli olunması gerektiğini vurguluyor: ticari yapay zekânın “kara kutu” doğası, bilinmeyen eğitim verileri, nadir hastalıkların düzensiz temsili ve sohbetbotların insan patologların rutin olarak kullandığı mikroskop görüntüleri yerine yalnızca metin tanımlarını görmesi gibi nedenler bunların arasında sayıldı.

Gelecekte bakım için ne anlama geliyor

Hekim olmayan okuyucular için ana mesaj şu: bugünün konuşma tabanlı yapay zekâları bazen ağız patolojisinde uzman görüşünü yansıtabiliyor, ancak kendi başlarına güvenilir olacak kadar olgun değiller. En iyi performans gösteren sohbetbot uzmanlarla yaklaşık üç vakadan ikisinde benzerlik gösterdi ve hataların en önemli olduğu durumlarda—alışılmadık veya erken evre hastalıklarda—daha kötü performans sergiledi. Yazarlar, mevcut durumda bu araçların yalnızca eğitim, iş yükünü hafifletme ve kaba bir ikinci görüş sağlama gibi destekleyici rollerde kullanılmaları gerektiği, eğitimli patologların yerine asla geçmemeleri gerektiği sonucuna varıyor. Daha iyi veriler, daha net denetim ve dikkatli testlerle bu tür sistemler bir gün tanıda daha güvenli ortaklar olabilir; ancak şimdilik insan uzmanlığı vazgeçilmezdir.

Atıf: Alvarez-Silberberg, V.I., Alvarez-Silberberg, C.P., Galletti, C. et al. Comparative analysis of large language models as decision support tools in oral pathology. Sci Rep 16, 11272 (2026). https://doi.org/10.1038/s41598-026-41533-z

Anahtar kelimeler: ağız patolojisi, yapay zeka, klinik karar desteği, büyük dil modelleri, dijital diş hekimliği