Clear Sky Science · ar
تقييم معياري لنماذج اللغات الكبيرة المرئية في تقييم جودة فيديوهات تبسيط العلوم حول جفاف العين
لماذا هذا مهم للمشاهد اليومي
تطبيقات الفيديوهات القصيرة أصبحت بسرعة المحطة الأولى للناس للحصول على نصائح صحية، بما في ذلك مشاكل العيون مثل جفاف العين الذي يؤثر على مئات الملايين حول العالم. لكن إلى جانب المقاطع المفيدة، من السهل العثور على فيديوهات منخفضة الجودة أو مضللة ويصعب على الأطباء مراقبتها. تسأل هذه الدراسة ما إذا كانت أنظمة الذكاء الاصطناعي الجديدة القادرة على «مشاهدة» الفيديوهات قد تساعد في فحص جودة هذه المقاطع الصحية تلقائيًا، وتوضح لماذا، في الوقت الحالي، ليست هذه الأدوات جاهزة لاستبدال حكم الخبراء.

جفاف العين وتصاعد فيديوهات الصحة
جفاف العين أكثر من مجرد إزعاج بسيط؛ يمكن أن يسبب طمسًا في الرؤية، وألمًا، ويعطل العمل والحياة اليومية. مع تزايد انتشار الحالة، خصوصًا بين كبار السن ومن يستخدمون الشاشات بكثرة، يبحث الكثيرون على الإنترنت عن تفسيرات ونصائح للعناية الذاتية. تستضيف منصات مثل تيك توك العديد من الفيديوهات القصيرة عن جفاف العين، لكن طبيعة هذه المنصات المفتوحة تعني أن أي شخص يمكنه نشر محتوى بغض النظر عن تدريب طبي. النصائح السيئة أو المبالغ فيها قد تؤخر العلاج المناسب أو تشجع على علاجات منزلية غير آمنة، لذا هناك حاجة ملحّة لطرق موثوقة لفحص جودة الفيديوهات على نطاق واسع.
كيف اختبر الباحثون منظّقي الفيديو بالذكاء الاصطناعي
جمع الفريق 185 فيديوًا باللغة الصينية من تيك توك حول جفاف العين باستخدام حساب جديد ومحايد وقواعد صارمة للاحتفاظ فقط بالمقاطع الأصلية والتعليمية. ثم قيّم اثنان من أخصائيي العيون كل فيديو باستخدام ثلاث أدوات معتمدة تُستخدم كثيرًا في أبحاث التعليم الطبي. أداة واحدة قيّمت مدى سهولة فهم الفيديوهات ومدى وضوح اقتراحها لخطوات ملموسة يمكن للمشاهدين اتخاذها. الثانية قدمت تقديرًا عامًّا للجودة من ضعيف إلى ممتاز. أما الثالثة ففصّلت الجودة إلى جوانب مثل سلاسة عرض المعلومات ودقتها، وكيفية استخدام عناصر إضافية مثل الرسوم المتحركة، ومدى تطابق المحتوى مع عنوان الفيديو.
اختبار نماذج الذكاء الاصطناعي المتخصّصة بالفيديو
بعد ذلك قدَّم الباحثون نفس الفيديوهات إلى ثلاث "نماذج لغات كبيرة مرئية" متقدمة، وهي أنظمة ذكاء اصطناعي مصممة لتفسير المعلومات البصرية إطارًا بإطار والإجابة عن أسئلة حول ما تراه. صاغوا تعليمات مفصّلة حتى يقلّد كل نموذج أدوات تقييم الأطباء بأكبر قدر ممكن من الدقة. السؤال الأساسي كان هل ستعطي الذكاء الاصطناعي وخبراء البشر درجات متشابهة؟ لقياس ذلك استخدم الفريق مقياسًا إحصائيًا قياسيًا للموثوقية يلتقط مدى اتفاق "الحكّام" المختلفين، ليس فقط في الاتجاهات بل في القيم العددية الفعلية.

ما الذي أجابته الذكاء الاصطناعي بشكل صحيح — وما أخفق فيه
كان لدى المقَيِّمين البشر إجماع كبير فيما بينهم، مما يشير إلى أن درجاتهم كانت مستقرة وجديرة بالثقة. على النقيض من ذلك، أظهرت الأنظمة الثلاثة للذكاء الاصطناعي اتفاقًا ضعيفًا مع الخبراء في معظم المجالات. لم يستطع أي من النماذج أن يطابق الأطباء بشكل موثوق في تقييم الجودة العامة للفيديو أو في الميزات التفصيلية مثل مدى انسجام العناوين مع المحتوى. كان أحد النماذج يميل إلى إعطاء درجات أعلى من الخبراء، ونموذج آخر يميل إلى الدرجات الأدنى، ولم يكن سوى نموذج واحد يصل أحيانًا إلى مستوى وسط. النقطة المشرقة النسبية الوحيدة كانت "القابلية للتنفيذ" — مدى وضوح ما تخبر الفيديوهات المشاهدين بفعله — حيث وصلت نتيجتان إلى مستوى متوسط من الاتفاق، لكنهما بقتا دون المستوى المطلوب لاتخاذ قرارات في العالم الحقيقي.
لماذا تفشل الذكاء الاصطناعي اليوم
يقترح المؤلفون عدة أسباب لهذا الفارق. النظم المختبرة تدربت أساسًا على مشاهد يومية ومهام فيديو عامة، وليس على تعليم صحي منظم بعناية. تعتمد العديد من فيديوهات العلوم بشكل كبير على الشرح المنطوق، والترجمة النصية، والرسوم البيانية، والاستعارات بدلًا من الصور المتحركة الدرامية، ومع ذلك فإن النماذج في هذه الدراسة حللت الإطارات البصرية فقط ولم تستمع إلى الصوت أو تقرأ العناوين والمعلومات الوصفية الأخرى التي يستخدمها البشر لتقييم الصلة والدقة. كنتيجة لذلك، لم تصل أجزاء كبيرة من المعنى إلى الذكاء الاصطناعي، خاصة عندما كانت التفاصيل الأساسية منطوقة بدل أن تُعرض. قد تربك اللغة التصويرية الشائعة في التعليم الصحي بالصينية أيضًا الأنظمة التي تفسر العبارات حرفيًا.
ما يعنيه هذا للمرضى والمنصات
يوفر هذا العمل خريطة طريق مبكرة، وليس شبكة أمان جاهزة. يبيّن أنه من حيث المبدأ يمكن ترجمة قوائم التحقق المألوفة لمعلومات الصحة إلى تعليمات لنماذج الذكاء الاصطناعي التي تشاهد الفيديوهات. كما يوضح أن الأنظمة العامة الحالية ليست بعد موثوقة بما يكفي لتقييم فيديوهات طبية أو مراقبة المعلومات المضللة دون إشراف بشري. من خلال إصدار إطار التقييم ومجموعة البيانات المشروحة من الفيديوهات، يأمل المؤلفون في تحفيز نماذج أفضل وأكثر تخصصًا تستطيع دمج المرئيات والصوت والسياق الإضافي، وتعمل عبر أمراض ولغات متعددة. في الوقت الراهن، ينبغي للمشاهدين الاستمرار في اعتبار فيديوهات الصحة القصيرة نقطة انطلاق وليست نصيحة طبية، ويجب ألا تعتمد المنصات على الذكاء الاصطناعي وحده لضمان معلومات موثوقة.
الاستشهاد: Zhou, S., Huang, M., Wei, J. et al. Benchmark evaluation of video large language models in quality assessment of science popularization videos for dry eye. Sci Rep 16, 8756 (2026). https://doi.org/10.1038/s41598-026-39444-0
الكلمات المفتاحية: مرض جفاف العين, فيديوهات صحية, الذكاء الاصطناعي, المعلومات المضللة, تيك توك