Clear Sky Science · tr

Oral patoloji tanısında insan ve yapay zekâ: ChatGPT, Grok ve MANUS’un karşılaştırmalı çalışması

· Dizine geri dön

Bir sonraki diş randevunuz için neden önemli

Bir diş hekimi ağzınızda şüpheli bir lezyon bulduğunda, bunun zararsız mı yoksa tehlikeli mi olduğuna ilişkin nihai karar genellikle dokuyu mikroskop altında inceleyen bir uzmandan çıkar. Bu iş titiz, zaman alan bir süreçtir ve dünyanın birçok yerinde yeterli uzman bulunmamaktadır. Bu çalışma güncel bir soruyu gündeme getiriyor: modern yapay zekâ sistemleri ağız dokularının mikroskobik görüntülerini insan uzmanlara yakın doğrulukla okuyarak tanıyı hızlandırabilir, tutarlılığı artırabilir ve erişilebilirliğini genişletebilir mi?

Figure 1
Figure 1.

Araştırmacıların test etmek istediği şey

Ekip, hem görüntüleri hem dili anlayabilen ileri bilgisayar programları olarak bilinen üç yapay zekâyı odak noktası yaptı: ChatGPT, Grok ve MANUS adındaki bir tıbbi sistem. Gerçek hasta verileri kullanmak yerine, standart bir oral hastalıklar ders kitabından alınmış 100 net, yüksek kaliteli mikroskopik görüntüden yararlandılar. Her görüntü önkanseröz değişikliklerden tümörlere, kistlere ve reaktif büyümelere kadar farklı türde bir sorunu gösteriyordu. İki deneyimli oral patolog önce her lam için doğru tanıda anlaştı ve makineleri karşılaştırmak için sağlam bir insan standardı oluşturdu.

Baş başa karşılaştırma nasıl yapıldı

100 slaytın her biri aynı kısa vaka açıklaması ve aynı dijital resim kullanılarak üç yapay zekâ sistemine gösterildi. Modellerden, bir uzman rapor verirken olduğu gibi tek en olası tanımı belirtmeleri istendi. Sistemlerin zaman içindeki yanıtlarının tutarlı olup olmadığını görmek için araştırmacılar aynı slaytlar ve talimatlarla tüm süreci iki hafta sonra tekrarladı. Bu arada iki insan patolog, yapay zekâ çıktılarını görmeden slaytları bağımsız şekilde okudu ve ardından herhangi bir farkı tartışıp nihai kararda uzlaştı. Bu uzman kararları en iyi mevcut cevap olarak ele alındı.

Figure 2
Figure 2.

Makineler ve insanların performansı nasıldı

Üç yapay zekâ aracı da dikkat çekici derecede iyi performans gösterdi. Testin ikinci turunda Grok 100 vakadan 97’sini doğru tanımladı, MANUS 96’yı, ChatGPT ise 94’ü doğru bildi. İnsan uzman ikilisi biraz daha yüksek puan alarak 98 slaytı doğru sınıflandırdı. ChatGPT her iki turda neredeyse tamamen aynı yanıtları vererek çok güçlü iç tutarlılık gösterdi; MANUS ve Grok da sağlam ve stabil performans sergiledi. Sistemler birbirleriyle karşılaştırıldığında, büyük çoğunlukla aynı görüşe vardılar; bu, farklı yapay zekâ tasarımlarının aynı yüksek kaliteli görüntüler verildiğinde benzer yargılara ulaşabileceğini gösteriyor.

Yapay zekânın uzman düşüncesiyle ne kadar uyumlu olduğu

Doğru cevabı eşleştirmek hikâyenin yalnızca bir parçası; bilgisayarların insanın akıl yürütme kalıplarıyla ne kadar örtüştüğü de önemlidir. Bu bağlamda MANUS, ham doğrulukta Grok’u geride bırakmasa da patologların kararlarına en yakın uyumu gösterdi. Grok genel olarak biraz daha doğru olmasına karşın, zor vakaların birkaçında uzmanlarla farklı tercihlere ulaşabiliyordu. Üç sistemin de çoğu hatası, doku değişikliklerinin üst üste bindiği veya iki durum arasında sınırda görünen, eğitimli gözler için bile görsel olarak kafa karıştırıcı olan slaytlarda ortaya çıktı. Yine de modeller arasında büyük performans farkları yoktu ve tümü insanlarla orta düzeyden yüksek düzeye kadar uzanan anlaşma seviyeleri gösterdi.

Gelecekteki bakım için bunun anlamı ne olabilir

Çalışma, günümüzün multimodal yapay zekâ sistemlerinin ağız hastalıklarının mikroskobik tanısında güvenilir yardımcılar olarak hizmet verebilecek yetkinlikte olduğunu öne sürüyor. Patologların yerine geçmiyorlar — insan uzmanlar hâlâ en yüksek genel doğruluğa sahip ve kritik klinik yargı sağlıyor — ancak hızlı ikinci okuyucular, yeni uzmanların eğitimini destekleyiciler veya diş patolojisi hizmetlerine erişimin sınırlı olduğu bölgelerde uzman düzeyinde yardım sunabilirler. Araştırma dikkatle seçilmiş ders kitabı görüntüleri kullanıldığı için gerçek dünyadaki karmaşık örnekler yerine, yazarlar daha büyük, daha çeşitli klinik koleksiyonlar ve ek hasta bilgileriyle daha fazla test yapılması gerektiğini vurguluyor. Bu ek doğrulamalar erken vaadi onaylarsa, yapay zekâ ağız hastalıkları tanısını hastalar için daha doğru, tutarlı ve erişilebilir hâle getirebilir.

Atıf: Alshammari, A.F., Madfa, A.A. & Anazi, B.A. Human versus artificial intelligence in oral pathology diagnosis: a comparative study of ChatGPT, Grok, and MANUS. Sci Rep 16, 11057 (2026). https://doi.org/10.1038/s41598-026-40792-0

Anahtar kelimeler: oral patoloji, dijital patoloji, yapay zekâ, büyük dil modelleri, histopatoloji tanısı