Clear Sky Science · ar

التحليل المقارن لنماذج اللغة الكبيرة كأدوات دعم قرار في طب الفم

· العودة إلى الفهرس

لماذا تهم الشاتبات الذكية في طب الفم

يحمل معظم الناس الآن ذكاءً اصطناعيًا قويًا في جيوبهم على شكل شاتبات ودودة تجيب عن الأسئلة خلال ثوانٍ. لكن هل يمكن لهذه الأدوات أن تساعد الأطباء بأمان في تفسير التغيرات النسيجية الدقيقة التي تكشف عما إذا كانت بقعة في الفم حميدة أم بداية أمر خطير؟ تسأل هذه الدراسة بالضبط ذلك، بمقارنة أربعة شاتبات مستخدمة على نطاق واسع لمعرفة مدى دعمها للأخصائيين الذين يشخصون الأمراض من أوصاف المجهر لأنسجة الفم.

Figure 1
Figure 1.

كيف اختبرت الدراسة الشاتبات

جمع الباحثون 102 تقريرًا من الواقع السريري تصف ما رآه أطباء الأمراض تحت المجهر في خزعات مأخوذة من الفم والفك. غطت هذه التقارير مجموعة واسعة من المشكلات، من انتفاخات مملوءة بالمخاط والأورام الليفية البسيطة إلى تغيرات قد تكون سرطانية مثل خلل التنسج الظهاري الفموي وسرطان الخلايا الحرشفية المتقدم. لكل حالة، أدخل الفريق نفس نص التقرير، بالإضافة إلى بيانات مريض أساسية مثل العمر والجنس وموقع الآفة، إلى أربعة شاتبات: ChatGPT-4.0، وChatGPT o1-preview الموجه نحو الاستدلال، وMeta AI المبني على LLaMA-3، وGemini من جوجل. طُلب من كل شاتبات تشخيص رئيسي واحد وثلاثة بدائل محتملة، محاكاة لكيف قد يطلب الطبيب رأيًا ثانويًا سريعًا.

تقييم الإجابات مقابل الخبراء البشر

قارن اثنان من أطباء أمراض الفم المعتمدين، كل منهما بشكل مستقل ثم بالتوافق، الاقتراح الرئيسي لكل شاتبات بالتشخيص الأصلي في السجل المستشفي. صنفوا الإجابات إلى ثلاث مجموعات: خاطئة بوضوح؛ متشابهة أو صحيحة جزئيًا (على سبيل المثال، اكتشاف جزء فقط من تشخيص مركب أو استخدام صياغة مختلفة لكنها معادلة سريريًا)؛ أو صحيحة تمامًا. كما تحقق الفريق مما إذا كان الشاتبات الذي أخطأ في التشخيص الرئيسي قد يذكر الإجابة الصحيحة ضمن ثلاثة البدائل. باستخدام أساليب إحصائية قياسية، قارنوا مدى اتفاق كل نظام مع الخبراء البشريين وفحصوا ما إذا كانت النتائج تتغير مع عمر المريض أو جنسه.

Figure 2
Figure 2.

أي الشاتبات اقترب أكثر من الأخصائيين

قدم الشاتبات الموجه نحو الاستدلال ChatGPT o1-preview أفضل دعم موثوق: حيث تطابق تشخيصه الرئيسي مع خبراء البشر في حوالي حالتين من كل ثلاث حالات (68.6 بالمئة)، يليه Meta AI بقليل (65.7 بالمئة). أداء ChatGPT-4.0 كان متوسطًا (59.8 بالمئة)، بينما تخلفت Gemini مع إجابات صحيحة في نحو ربع الحالات فقط (27.5 بالمئة). عند قياس الاتفاق بمزيد من الصرامة، وصل ChatGPT o1-preview وMeta AI إلى ما يسميه الإحصائيون «اتفاقًا جوهريًا» مع أطباء أمراض الفم، بينما حقق ChatGPT-4.0 «اتفاقًا متوسطًا»، وأظهرت Gemini «اتفاقًا ضعيفًا». كانت جميع الشاتبات أفضل في المشكلات الحميدة الشائعة والواضحة مثل المخاطيات والأورام الليفية، وكانت تعاني باستمرار مع الحالات الأصعب مثل خلل التنسج الظهاري الفموي أو الآفات النادرة.

أين لا تزال الآلات قاصرة

حتى عندما سُمح للشاتبات بقائمة من ثلاثة تشخيصات بديلة، غالبًا ما فشلت في ذكر التشخيص الصحيح، خصوصًا Gemini وMeta AI. كما وجدت الدراسة أن أداء معظم النماذج انخفض قليلًا في المرضى الأكبر سنًا، ربما لأن التغيرات النسيجية المرتبطة بالعمر تجعل الصورة الميكروسكوبية أكثر تعقيدًا. بالمقابل، لم تظهر أنظمة أي اختلافات بين الرجال والنساء. يبرز المؤلفون عدة أسباب للحذر: الطابع "الصندوق الأسود" للذكاء الاصطناعي التجاري، بيانات تدريب غير معروفة، تمثيل غير متساوٍ للأمراض النادرة، وحقيقة أن الشاتبات رأت أوصافًا نصية فقط دون صور المجهر التي يستخدمها أطباء الأمراض عادة.

ماذا يعني هذا للرعاية المستقبلية

للقراء غير المتخصصين، الرسالة الأساسية هي أن أنظمة المحادثة الحالية قد تكرر أحيانًا حكم الخبراء في علم أمراض الفم، لكنها بعيدة عن أن تكون موثوقة بما يكفي للعمل بمفردها. الشاتبات الأفضل أداءً طابقت تقريبًا الأخصائيين في حالتين من كل ثلاث حالات وكانت أسوأ أداءً في المواقف التي تكون فيها الأخطاء الأكثر خطورة—الأمراض النادرة أو المبكرة. يخلص المؤلفون إلى أنه في الوقت الراهن يجب استخدام هذه الأدوات فقط كمساعدين قد يدعمون التعليم، ويقللون العبء، ويقدمون مراجعة تقريبية ثانية، وليس كبدائل للأطباء المدربين. مع بيانات أفضل، وإشراف أوضح، واختبارات دقيقة، قد تصبح هذه الأنظمة يومًا ما شركاء أكثر أمانًا في التشخيص، لكن في الوقت الحالي تبقى الخبرة البشرية ضرورية.

الاستشهاد: Alvarez-Silberberg, V.I., Alvarez-Silberberg, C.P., Galletti, C. et al. Comparative analysis of large language models as decision support tools in oral pathology. Sci Rep 16, 11272 (2026). https://doi.org/10.1038/s41598-026-41533-z

الكلمات المفتاحية: علم أمراض الفم, الذكاء الاصطناعي, دعم القرار السريري, نماذج اللغة الكبيرة, طب الأسنان الرقمي