Clear Sky Science · ar

مقارنة أداء نماذج اللغة الكبيرة في تقييم المعرفة بعلاج الالتقاط بالنيترونات للبورون

· العودة إلى الفهرس

معلمون أذكياء لنوع جديد من إشعاع السرطان

علاج الالتقاط بالنيترونات للبورون (BNCT) هو نوع ناشئ من العلاج الإشعاعي يهدف إلى تدمير الأورام مع الحفاظ على الأنسجة السليمة المجاورة. ومع انتقال هذا العلاج المعقد من مختبرات البحث إلى المستشفيات، يحتاج الأطباء والمتدربون إلى إتقان كم كبير من المعارف المتخصصة والجديدة. تطرح هذه الدراسة سؤالاً ملحاً: هل يمكن لروبوتات الدردشة المعاصرة القائمة على الذكاء الاصطناعي أن تساعد في تعليم ودعم BNCT، وإذا كان الجواب بنعم، فما مدى موثوقيتها؟

ما الذي يجعل BNCT مختلفًا عن الإشعاع التقليدي؟

يعمل BNCT بطريقة تختلف جذريًا عن علاجات الأشعة السينية أو البروتونات القياسية. يتلقى المرضى أدوية تحتوي على شكل خاص من البورون يتجمع داخل خلايا الورم. عندما تتعرض هذه الخلايا لاحقًا لشعاع من النيترونات، تخضع ذرات البورون لتفاعل نووي صغير يطلق جسيمات قصيرة المدى، فتقتل الخلية السرطانية من الداخل مع ترك الأنسجة المحيطة إلى حد كبير دون ضرر. هذا النهج شديد الاستهداف واعد بشكل خاص للأورام التي يصعب علاجها أو تلك الفقيرة بالأكسجين. حتى وقت قريب، كانت BNCT تعتمد على المفاعلات النووية كمصادر للنيترونات، مما قيد استخدامه سريريًا. وقد حولت الموافقة على آلات BNCT القائمة على المعجلات في اليابان عام 2020، وافتتاح مراكز جديدة في دول مثل الصين، BNCT إلى خيار واقعي لمزيد من المرضى — مما خلق حاجة ملحة للتدريب والترخيص المتخصص.

Figure 1
Figure 1.

اختبار أربعة أنظمة ذكاء اصطناعي رائدة

لفحص مدى قدرة روبوتات المحادثة العامة على تناول موضوعات BNCT، أنشأ الباحثون اختباراً مكوناً من 47 سؤالاً غطت الأفكار الأساسية، وأحدث البحوث، والممارسة السريرية، ومهام الحساب والاستدلال. كُتبت الأسئلة باللغتين الصينية والإنجليزية وشملت حقائق بسيطة (مثل التعريفات) ومسائل أكثر تطلبًا تتطلب منطقًا أو عملًا رقميًا. اختُبرت أربع عائلات رئيسية من الذكاء الاصطناعي — ممثلة بأنظمة مستخدمة على نطاق واسع من شركات مختلفة — عبر خمس فترات زمنية منفصلة، وباللغتين وبطريقتين لصياغة الأسئلة (أسئلة مباشرة بسيطة وأسئلة مضمّنة في سيناريو سريري قصير). قيّم اختصاصيو رعاية السرطان البشريون كل إجابة مقابل مفتاح معياري، وتتبع الفريق أيضًا مدى تكرار اعتراف النماذج بعدم اليقين بعبارات مثل «لا أدري».

من أجاب أفضل، وعلى أي أنواع من الأسئلة؟

بشكل عام، أدت عائلتان من النماذج أداءً أفضل بوضوح من البقيتين. بلغت دقة أقوى نظام نحو 73%، والثاني نحو 70%، بينما سجلت النماذج المتبقية حوالى 62% و56%. ومن المثير للاهتمام أن الأفضل لم يتفوّق فقط في الحقائق المحفوظة. فقد كانت أداؤهم ملحوظًا أفضل في الأسئلة التي تتطلب استدلالًا كثيفًا مقارنةً بالاستدعاء البسيط، مما يشير إلى أن هذه الأنظمة قوية نسبياً في مهام التفكير متعددة الخطوات، مثل حساب الجرعات أو مسائل التخطيط داخل هذا المجال الطبي الضيق. أظهر أحد النماذج نتائج متقاربة تقريبًا بين عناصر الحقائق والاستدلال، بينما تأخر آخر إجمالاً رغم أنه كان يؤدي أفضل قليلاً في الاستدلال مقارنة بالحقائق.

التحديثات واللغات والاستعداد لقول «لا أدري»

نظرًا لأن أنظمة الذكاء الاصطناعي يتم تحديثها بشكل متكرر، فحص الباحثون أيضًا كيف تغير الأداء عبر خمس جولات اختبارية تمتد من أواخر 2023 إلى منتصف 2025. كانت الترقيات الرئيسية للنسخ تميل إلى إحداث قفزات واضحة في الدقة، في حين أن التعديلات البسيطة داخل نفس النسخة لم تُحدث فرقًا كبيرًا. ارتفعت دقة إحدى العائلات من أقل من 60% إلى أكثر من 80% مع مرور الوقت، مما يبرز سرعة تقدم التكنولوجيا. ومن المدهش أن اختلاف لغة السؤال بين الصينية والإنجليزية، أو صياغته مباشرة مقابل تضمينه في دور تمثيلي، كان له تأثيرات طفيفة مقارنةً بالقوة الأساسية المدمجة في كل نموذج. وكان الفارق الأبرز في مدى صراحة النماذج عندما تكون مخطئة. اعترفت بعض النماذج بعدم اليقين تقريبًا في واحد من كل خمسة إجابات خاطئة، بينما نادراً ما اعترفت أخرى، وغالبًا ما تقدّم ردودًا واثقة لكنها خاطئة.

Figure 2
Figure 2.

ماذا يعني هذا للأطباء والطلاب والمرضى

تخلص الدراسة إلى أن أفضل روبوتات المحادثة العامة الحالية قادرة بالفعل على تقديم شروحات دقيقة إلى حد معقول وأسئلة تدريبية حول BNCT، مما يجعلها مساعدين واعدين للتعليم والدراسة الذاتية. مع ذلك، لا يمكن الوثوق بأي من هذه الأنظمة للإجابة عن جميع أسئلة BNCT بشكل صحيح بعد، وتختلف طرقها في التعبير عن عدم اليقين — أو إخفائه — بطرق تؤثر على السلامة. في الوقت الراهن، ينبغي اعتبار هذه الأدوات مساعدين أذكياء يمكنهم دعم، وليس إحلال، الحكم الخبير. ويجادل المؤلفون بأن نماذج ذكاء اصطناعي مخصصة للـ BNCT، إلى جانب معايير واضحة لكيفية استخدام مثل هذه الأدوات في العيادات والفصول الدراسية، ستكون ضرورية قبل أن يلعب الذكاء الاصطناعي دورًا موثوقًا في الخطوط الأمامية لهذا النوع المتخصص من رعاية السرطان.

الاستشهاد: Shen, S., Wang, S., Gao, M. et al. Performance comparison of large language models in boron neutron capture therapy knowledge assessment. Sci Rep 16, 5321 (2026). https://doi.org/10.1038/s41598-026-36322-7

الكلمات المفتاحية: علاج الالتقاط بالنيترونات للبورون, إشعاع السرطان, التعليم الطبي, الذكاء الاصطناعي, نماذج اللغة الكبيرة