Clear Sky Science · ar
تعزيز موثوقية تقييم جودة المعلومات الصحية العربية على الإنترنت باستخدام بنية BERT مع تعزيز وزن الميزات عبر PCA وICA
لماذا يحتاج النصيحة الصحية على الإنترنت إلى مرشح ذكي
يتجه عدد أكبر من الناس من أي وقت مضى إلى الإنترنت للبحث عن إجابات حول أمراض القلب، والسكتات الدماغية، وضغط الدم، وغير ذلك من المشكلات الصحية العاجلة. ومع ذلك تقدم العديد من المواقع الناطقة بالعربية نصائح ناقصة أو قديمة أو خاطئة ببساطة. تصف هذه الورقة كيف بنى الباحثون نظام ذكاء صناعي يقرأ صفحات الويب الطبية العربية ويُقيّم ما إذا كانت معلوماتها موثوقة، بدقة تقارب دقة الخبراء البشريين. والهدف هو مساعدة المرضى وعائلاتهم وحتى المساعدين الرقميين المستقبليين على تجنّب النصائح الصحية المضللة على الإنترنت.
فرز المعلومات الصحية الجيدة من السيئة
يفتتح المؤلفون بتسليط الضوء على مشكلة خطيرة: معظم المعلومات الصحية على الإنترنت ذات جودة منخفضة، لكن الناس يتعاملون معها غالبًا كما لو كانت موثوقة، وأحيانًا يستخدمونها بدلاً من زيارة الطبيب. ركزت المحاولات السابقة لتقييم صفحات الويب تلقائيًا في الغالب على الإنجليزية، واستخدمت تعريفات ضيقة للجودة، واهتمت قليلًا بدرجة ثقة أو معايرة أنظمة الذكاء الاصطناعي. تركز هذه الدراسة على المحتوى العربي وتتبنى رؤية أوسع للجودة تشمل من كتب المعلومات، ومدى حداثتها، وما إذا كانت مبنية على الأدلة، ومدى وضوح شرحها لفوائد ومخاطر العلاج. قيّم المراجعون البشريون مئات من صفحات الويب العربية حول حالات طارئة مثل النوبات القلبية والسكتات الدماغية، فأنشأوا مجموعة مرجعية مفصلة من الصفحات «عالية الجودة» و«منخفضة الجودة».

تعليم آلة لقراءة النص الطبي العربي
لحكم على صفحات جديدة، لجأ الباحثون إلى نماذج اللغة الحديثة—أنظمة ذكاء اصطناعي مدربة على فهم النص. بدأوا بنموذج Arabic BERT، وهو نموذج قوي يمثل كل كلمة كنقطة في فضاء عالي الأبعاد يلتقط المعنى والسياق. ثم أنشأوا نسخة طبية متخصصة، دربوها على أكثر من 100 مليون كلمة مأخوذة من كتب ومواقع طبية عربية، ليتمكن النموذج من استيعاب المصطلحات الفنية وطرق وصف الأعراض والعلاجات الشائعة بشكل أفضل. وبما أن صفحات الويب قد تكون طويلة، لخص الفريق المحتوى إلى أجزاء قابلة للإدارة ونقّح النص بحيث لا تشتت اختلافات التهجئة والرموز الخاصة النموذج.
فهم الأنماط المعقدة
حتى بعد أن يحوّل BERT صفحة الويب إلى أنماط رقمية، يكون الناتج ضخمًا وجزئيًا مكرّرًا. لذلك استخدم المؤلفون أدوات رياضية تُسمى تحليل المكونات الرئيسية (PCA) وتحليل المكونات المستقلة (ICA) لضغط هذه الأنماط إلى مجموعات أصغر وأكثر معلوماتية من الميزات. يجد PCA الاتجاهات التي تلتقط أكبر الاختلافات في البيانات، بينما يحاول ICA فصل الإشارات المتداخلة إلى أجزاء أكثر استقلالية. تُغذى مجموعات الميزات المُخفضة هذه بعد ذلك إلى طبقة نهائية تقرر ما إذا كانت الصفحة على الأرجح عالية أو منخفضة الجودة. كما جرّب الفريق قاعدة تدريب معدّلة تفرض عقوبة على النموذج عندما تكون توقعاته غامضة، مما يدفعه نحو قرارات أوضح وأكثر ثقة.

كيف أداء النظام
نظرًا لأن صفحات الجودة المنخفضة تفوق عدد صفحات الجودة العالية بكثير، استخدم المؤلفون عدة تقنيات لزيادة البيانات، مثل ترجمة النص ذهابًا وإيابًا بين اللغات، لموازنة أمثلة التدريب. قيّموا نسخًا متعددة من نظامهم باستخدام مقاييس معيارية مثل الدقة ودرجة F1، وأيضًا مقاييس أحدث لمدى تطابق ثقة النموذج مع الواقع. التصميم البارز جمع بين Arabic BERT ووزن ميزات قائم على PCA، وبلغ نحو 94.7% دقة—في مستوى يعادل أو يتفوق قليلًا على المقيمين البشريين في مهام مشابهة. قدمت نسخ أخرى، بما في ذلك النموذج المتخصص طبيًا وخسارة معتمدة على الانتروبيا، مقايضات بين الدقة الخالصة وكيفية معاملة الصفحات عالية ومنخفضة الجودة بشكل متوازن أو مدى حذره في التعبير عن الثقة.
ماذا يعني هذا للمرضى والأطباء
من منظور غير متخصص، الرسالة الأساسية هي أنه أصبح من الممكن الآن بناء أدوات ذكاء اصطناعي تعمل كمراجعين مهرة لمواقع الصحة العربية، تبرز الصفحات الموثوقة وتعلّم على المشكوك فيها. وبينما يؤكد المؤلفون أن مثل هذه الأنظمة ينبغي أن تدعم المهنيين الطبيين ولا تحلّ محلهم، يشير عملهم إلى تطبيقات عملية مثل إضافات المتصفح التي تحذر المستخدمين، ومحركات البحث التي ترفع المصادر الموثوقة إلى نتائج أعلى، أو روبوتات الدردشة الصحية التي تفرز بهدوء المعلومات التي تعتمدها. مع مزيد من الاختبارات والضمانات، قد تصبح هذه التقنيات طبقة حماية مهمة بين المرضى الضعفاء والنصائح المضللة على الإنترنت.
الاستشهاد: Baqraf, Y., Keikhosrokiani, P. & Cheah, YN. Enhancing trustworthiness of Arabic online health information quality evaluation using an enhanced BERT architecture with PCA and ICA feature weighting. Sci Rep 16, 12434 (2026). https://doi.org/10.1038/s41598-026-43158-8
الكلمات المفتاحية: المعلومات الصحية على الإنترنت, اللغة العربية, المعلومات الصحية المضللة, التعلّم العميق, BERT