Clear Sky Science · ar

تقييم متعدد المراكز ومتعدد الوظائف لنماذج اللغة الكبيرة في تفسير مخططات السمع النقي للمرضى

· العودة إلى الفهرس

لماذا تقارير اختبارات السمع صعبة الفهم إلى هذا الحد

يخرج كثير من الناس من اختبار السمع حاملين مخططًا مليئًا بالنقاط والخطوط، مع ملاحظة قصيرة فقط من الطبيب. بالنسبة لغير المتخصصين، تكون تقارير مخططات السمع النقي شبه مستحيلة الفهم، ومع ذلك فهي تؤثر على قرارات قد تغير الحياة بشأن سماعات الأذن والعلاج والتواصل اليومي. تطرح هذه الدراسة سؤالًا عما إذا كانت روبوتات المحادثة الحديثة المدعومة بنماذج اللغة الكبيرة قادرة على تحويل تلك المخططات الفنية إلى تفسيرات واضحة ومطمئنة للمرضى العاديين.

تحويل مخططات الأذن المعقدة إلى لغة بسيطة

مخططات السمع النقي هي اختبار المعيار الذهبي لقياس مدى قدرتنا على سماع النغمات المختلفة، من الاهتزازات المنخفضة إلى النغمات العالية. يبدو التقرير الناتج أقرب لتجربة فيزيائية منه إلى ملخص صحي. في الوقت نفسه، هناك نقص في أخصائيي السمع المدربين حول العالم، لا سيما في المناطق ذات الموارد الطبية المحدودة. رأت الباحثون فرصة: إذا كان بإمكان روبوتات المحادثة «قراءة» هذه المخططات وشرح النتائج بلغة يومية، فقد تساعد المرضى على فهم سمعهم مبكرًا وبشكل أفضل، داعمةً هدف منظمة الصحة العالمية المتمثل في «الصحة السمعية للجميع.»

Figure 1
الشكل 1.

اختبار عدة روبوتات محادثة

جمع الفريق 140 تقريرًا حقيقيًا لاختبارات السمع من مركزين في الصين، أزالوا البيانات الشخصية، وأعادوا إنشاء نسخ موحدة من مخططات السمع. طلبوا بعد ذلك من ثمانية نماذج لغة كبيرة مختلفة، من شركات في كل من الصين والولايات المتحدة، أداء ثلاث مهام لكل تقرير: تحديد شدة فقدان السمع ونوعه (على سبيل المثال، متعلق بالأذن الداخلية أو الأذن الخارجية)، شرح النتائج بلغة مناسبة للمرضى، وتقديم توصيات عملية مثل متى يجب طلب الرعاية أو التفكير في سماعات الأذن. جُمعت جميع مخرجات النماذج في ظل ظروف مسيطرة ثم قَيَّمها أطباء متمرسون ومتطوعون عاديون مستقلون لم يكونوا يعرفون أي نموذج أنتج أي إجابة.

مدى جودة تشخيص الآلات لفقدان السمع

عندما تصرفت النماذج كأخصائي سمع افتراضي، كانت النتائج متباينة. النظام الأفضل أداءً، DeepSeek‑V3، قدّر شدة فقدان السمع بشكل صحيح حوالي ثلثي الوقت وحدد النوع العام لفقدان السمع في أكثر من نصف الحالات بقليل. غالبًا ما أدت النماذج الأخرى أداء أسوأ، وظلت الدقة عمومًا أقل بكثير مما هو متوقع من الأطباء المدربين. اختبر الباحثون أيضًا طرقًا بديلة لتغذية المعلومات للنماذج، مثل إضافة أرقام منظمة إلى جانب صور المخططات. حسّنت هذه التعديلات الدقة لمعظم الأنظمة، مما يشير إلى أن طريقة عرض المعلومات قد تكون مهمة بقدر قوة النموذج نفسه.

تفسيرات مفيدة، لكن تفاصيل مختلقة مقلقة

بعيدًا عن الدقة العددية، بحثت الدراسة مدى قابلية قراءة وموثوقية تفسيرات روبوتات المحادثة. أنتجت بعض النماذج ردودًا طويلة ومفصّلة، بينما كانت أخرى أكثر اختصارًا. كتبت نماذج DeepSeek باستمرار بمستوى قراءة يتناسب تقريبًا مع شخص ذا تعليم متوسط، متوافقة مع إرشادات محو الأمية الصحية من منظمات طبية كبرى. ومع ذلك، أظهرت عدة أنظمة ميلًا مقلقًا للاختلاق، حيث اخترعت تفاصيل لم تكن واردة في التقارير الأصلية. في نحو ربع إجابات بعض النماذج، اخترع الروبوت أرقامًا، أخطأ في عتبات السمع، أو أوصى بأجهزة غير موجودة ومسارات علاجية غير واقعية. في المقابل، كان لدى أحد نماذج Gemini حالات اختلاق أقل بكثير، رغم أن دقته الطبية لم تكن الأعلى.

Figure 2
الشكل 2.

ماذا رأى الخبراء والمستخدمون العاديون

قيّم الأطباء النماذج من حيث الدقة والشمولية والفائدة العملية لإجاباتها. هنا أيضًا، احتل DeepSeek‑V3 ونموذجه الشقيق المرتبة الأعلى عمومًا من حيث الجودة المهنية، مقدمين تفسيرات منظمة وتوصيات مركزة تتماشى مع الممارسة السريرية. ومع ذلك، عندما قيّم الجمهور نفس الإجابات، تغيرت الأولويات. فضّل غير الخبراء النماذج الأسهل في المتابعة، الأكثر حوارية، والأكثر دعمًا عاطفيًا، حتى لو لم تكن الأكثر دقة طبية. حققت نماذج Gemini نقاطًا جيدة بشكل خاص في الوضوح والتعاطف والرضا العام، مما يبرز التوتر بين المعايير المهنية الصارمة واحتياجات التواصل المتمحور حول المريض.

لماذا هذا مهم للأشخاص الذين يعانون مشاكل في السمع

فقدان السمع منتشر، وكثير من الناس لا يتلقون تفسيرًا واضحًا لنتائج اختباراتهم. تُظهر هذه الدراسة أن روبوتات المحادثة الحالية غير جاهزة لاستبدال أخصائيي السمع أو لإصدار تشخيصات مستقلة اعتمادًا فقط على مخططات السمع. قد يضلّل معدّل الأخطاء والتفاصيل المخترعة المرضى إذا استُخدمت دون إشراف. في الوقت نفسه، تملك النماذج نقاط قوة حقيقية: تحويل المخططات المعقدة إلى لغة بسيطة، تقديم إرشاد مبدئي، وتخفيف القلق لدى أشخاص قد لا يجدون من يسألونه. إذا استُخدمت بحذر، مع تحذيرات واضحة وتحت إشراف متخصصي السمع، يمكن أن تصبح هذه الأدوات مساعدين قيمين يساعدون في سد ثغرات الوصول إلى الرعاية، تحسين الفهم، ودعم اتخاذ إجراءات مبكرة بشأن الصحة السمعية.

الاستشهاد: Liang, J., Xing, M., Xiang, P. et al. A multicenter multifunctional assessment of large language models in pure-tone audiogram interpretation for patients. npj Digit. Med. 9, 348 (2026). https://doi.org/10.1038/s41746-026-02537-1

الكلمات المفتاحية: فقدان السمع, مخطط السمع النقي, نماذج اللغة الكبيرة, التواصل مع المرضى, الصحة الرقمية