Clear Sky Science · ar
مودرنBERT أكثر كفاءة من BERT التقليدي في تصنيف نتائج فحوصات الأشعة المقطعية للصدر في تقارير الأشعة اليابانية
لماذا يهم تسريع قراءة التقارير الطبية
تولد المستشفيات يومياً آلاف تقارير الأشعة التي تصف ما يراه الأطباء على الصور. تحويل هذه الملاحظات النصية الحرة إلى معلومات منظمة يمكن أن يساعد في البحث، وضبط الجودة، وحتى أنظمة الذكاء الاصطناعي المستقبلية التي تدعم التشخيص. لكن على الحواسيب أن «تفهم» اللغة أولاً، وهذا صعب بشكل خاص في الكتابة الطبية اليابانية ذات الخليط من المصطلحات التخصصية والاختصارات والعبارات الإنجليزية. تسأل هذه الدراسة ما إذا كان نموذج لغوي أحدث يُدعى مودرنBERT يستطيع قراءة تقارير الأشعة المقطعية للصدر باليابانية بكفاءة أكبر من نماذج BERT القديمة والشائعة دون فقدان الدقة.
كيف تتعلم الحواسيب قراءة تقارير الفحوص
لمقارنة النماذج بشكل عادل، ركز الباحثون على مهمة محددة: تحديد أيّ من 18 مؤشراً محتملاً موجود في كل تقرير أشعة صدر، مثل عقيدات الرئة، النفاخ الرئوي، أو السائل حول الرئتين. استخدموا مجموعة بيانات عامة كبيرة تسمى CT‑RATE‑JPN، التي تحتوي على أكثر من 22,000 تقرير أشعة مقطعية صدر مترجم إلى اليابانية، وكلٌّ مُوسم من قِبل خبراء. استُخدمت معظم التقارير لتدريب وضبط ثلاثة نماذج: BERT القياسي، نموذج JMedRoBERTa الموجه طبياً، ومودرنBERT. مجموعة منفصلة من 150 تقريراً اختبرت مدى قدرة كل نموذج على تعيين مجموعة النتائج الصحيحة.

بناء اختبار أقوى من الواقع
لأن التقارير المترجمة قد تكون أكثر تجانساً من الكتابة اليومية في العيادات، بنى الفريق أيضاً مجموعة بيانات خارجية جديدة تُدعى RR‑Findings. تتألف هذه الـ243 تقريراً يابانياً من حالات سرطان رئة حقيقية كتبها تسعة أطباء أشعة معتمدين. وُسِّم كل تقرير بنفس الـ18 مؤشراً باستخدام عملية مراجعة دقيقة من خطوتين أجراها أطباء ذوو خبرة. على عكس مجموعة البيانات المترجمة، تتضمن هذه التقارير أساليب متنوعة، ومرادفات، واختصارات تعكس كيف يكتب أطباء الأشعة فعلياً في الممارسة، مما يجعل RR‑Findings اختباراً أقوى لمدى تحمل النماذج لاختلافات اللغة الطبيعية.
مكاسب السرعة من «قطع كلمات» أقصر
يكمن الفرق الرئيسي بين النماذج في كيفية تقطيعها للنص إلى قطع، أو توكنات، قبل المعالجة. يستخدم مودرنBERT مفردات أغنى بكثير تتعامل مع المصطلحات اليابانية والعبارات الإنجليزية المختلطة بكفاءة أعلى، لذا يحتاج إلى توكنات أقل لتمثيل نفس التقرير. في مجموعة الاختبار الداخلية، خفّض مودرنBERT متوسط عدد التوكنات بحوالي ربع مقارنةً بـBERT. عدد أقل من التوكنات يعني حساباً أسرع: عالج مودرنBERT حوالي مرة ونصف إلى مرتين من عدد التقارير في الثانية خلال كلٍ من التدريب والاختبار، وأكمل التدريب الكامل في وقت أقل بكثير من النماذج الأخرى. ومن المهم أن هذه الكفاءة لم تأتِ على حساب المهمة الداخلية: وصلت النماذج الثلاثة إلى دقة مماثلة، مع تقدم طفيف لمودرنBERT في معيار «جميع الوسوم صحيحة» الصارم.

عندما تتغير أساليب التعبير، تصبح الاستقرار مهمّاً
تغيّر المشهد عندما اختُبرت النماذج على مجموعة RR‑Findings الواقعية. هنا، حقق BERT القياسي أفضل دقة مطابقة تامة، بينما أظهر مودرنBERT أكبر تراجع مقارنةً بأدائه على التقارير المترجمة. أشارت التحليلات التفصيلية إلى أن مودرنBERT واجه صعوبة أكبر عندما استخدم أطباء الأشعة عبارات مختلفة عما تدرب عليه، مثلاً وصف التندب بـ«تغير التهابي مزمن» بدلاً من مصطلح مباشر، أو الاعتماد على اختصارات مثل GGN لأنواع معينة من العقيدات. ومع ذلك، ظل ترتيب الاحتمالات بشأن أيّ النتائج أكثر أو أقل احتمالاً جيداً إلى حد معقول، مما يوحي بأن عتبات الثقة لديه — وليست قدرته الأساسية على تمييز الأنماط — كانت حساسة بشكل خاص لهذا التغير في أسلوب اللغة.
ما معناه لأدوات الذكاء الاصطناعي في المستشفيات
للمستشفيات التي تريد أدوات ذكاء اصطناعي محلية وخاصة لفرز تقارير الأشعة، يقدم مودرنBERT مزايا واضحة في السرعة وتكلفة الحوسبة، خصوصاً للنصوص الأطول. على بيانات متطابقة جيداً، يمكنه مضاهاة أو التفوق قليلاً على دقة النماذج الأقدم مع استهلاك موارد أقل. ومع ذلك، تُظهر هذه الدراسة أيضاً أن الكفاءة وحدها لا تكفي: يجب تدريب النماذج ومعايرتها على مجموعة واسعة من اللغة السريرية الطبيعية لتتعامل مع واقع التقارير اليومي الفوضوي. يستنتج المؤلفون أن مودرنBERT خيار قوي وفعال للنصوص الإشعاعية اليابانية، لكن ينبغي أن تشتمل الأعمال المستقبلية على بيانات تدريب أكثر تنوعاً وضبطاً أذكى حتى تظل النماذج السريعة موثوقة حتى عندما تتغير أساليب الكتابة وسكان المرضى.
الاستشهاد: Yamagishi, Y., Kikuchi, T., Hanaoka, S. et al. ModernBERT is more efficient than conventional BERT for chest CT findings classification in Japanese radiology reports. Sci Rep 16, 15956 (2026). https://doi.org/10.1038/s41598-026-44292-z
الكلمات المفتاحية: تقارير الأشعة, الذكاء الاصطناعي الطبي الياباني, BERT, مودرنBERT, نتائج فحوصات الأشعة المقطعية للصدر