Clear Sky Science · ar
تقييم نماذج اللغة الاصطناعية في الإجابة على أسئلة متعلقة بالحمل قَيَّمها أخصائيو أمراض النساء والولادة
لماذا يهم هذا للأهالي المنتظرين للمولود
الحمل فترة مليئة بالأسئلة، والعديد من الناس يلجأون الآن إلى أدوات عبر الإنترنت وروبوتات الدردشة للحصول على إجابات سريعة. طرحت هذه الدراسة سؤالاً بسيطاً لكنه مهم: عندما يتعلق الأمر بالاهتمامات الشائعة في الحمل، ما مدى جودة روبوتات الدردشة الذكية الشائعة اليوم في تقديم معلومات واضحة ودقيقة ومطمئنة يمكن للأطباء الوثوق بها؟
مقارنة بين ثلاثة "محركات إجابة" رقمية
قام باحثون في تركيا بمقارنة ثلاثة نماذج لغوية معروفة—نسخة سابقة من ChatGPT (3.5)، وإصدار أحدث (4.0)، وGemini من جوجل. ركزوا على عشرة أسئلة يومية كثيراً ما يطرحها الحوامل، مثل الأطعمة التي يجب تجنبها، وما إذا كانت الرياضة والجنس آمنين، ماذا قد يعني النزف المبكر، كيفية التفكير في حركات الجنين، وما هي علامات التحذير التي تتطلب رعاية عاجلة. تم إدخال كل سؤال في الأنظمة الثلاثة نفسها باستخدام تعليمات بسيطة موحدة، مع ضبط الإعدادات لتقليل العشوائية بحيث تكون الإجابات متسقة بدلاً من أن تكون محادثية أو إبداعية.
أنتج كل نموذج إجابة واحدة لكل سؤال باللغة التركية، دون مطالبات متابعة أو تحرير. ثم أزيلت من الردود أي دلائل قد تكشف أي نظام كتبها وخلطت بترتيب عشوائي. بهذه الطريقة، حكم المراجعون البشريون—أخصائيو طب التوليد وأمراض النساء—على ما كان مكتوباً فقط، وليس على اسم الماركة أو نمط الكتابة الذي قد يتعرفون عليه. 
كيف قيّم الأطباء الإجابات
قام خمسة وسبعون أخصائياً في التوليد بدرجات متفاوتة من بداية المسار المهني حتى الممارسين ذوي الخبرة الطويلة بتقييم جميع الإجابات الثلاثين المجهولة الهوية. لكل رد استخدموا مقياساً من خمس نقاط لتقييم أربع صفات: الدقة (هل تتطابق مع المعرفة والإرشادات الطبية الحالية؟)، الموثوقية (هل الرسالة متسقة داخلياً وخالية من نصائح قد تكون غير آمنة؟)، ملاءمة المريض/الود (هل النبرة مناسبة ومطمئنة لغير المتخصصين؟)، وسهولة الفهم (هل اللغة واضحة ومنظمة وسهلة المتابعة؟). إجمالاً، قدم الخبراء 9000 درجة فردية—مجموعة بيانات كبيرة سمحت للباحثين بالكشف عن فروق ذات دلالة بين الأدوات الثلاث.
ثم استخدم الفريق أساليب إحصائية مصممة لدرجات التقييم لمقارنة النماذج. كما فحصوا مدى اتساق تقييمات الأطباء المختلفين لنفس الإجابات واستكشفوا ما إذا كان الأطباء الأكثر خبرة يقيمون الأمور بشكل مختلف عن زملائهم الأصغر سناً. الهدف لم يكن بناء روبوت دردشة عملي، بل أخذ لقطة دقيقة لكيفية تصرف هذه الأنظمة في ظروف مضبوطة عند الإجابة على أسئلة حمل واقعية.
أي روبوت دردشة كان الأفضل؟
عموماً، برز إصدار ChatGPT-4.0 الأحدث في المقدمة. قيّم الأطباء إجاباته كالأكثر دقة والأكثر لطفاً مع المرضى، كما أنها أدت أفضل في جانب الموثوقية. احتلت Gemini بشكل عام المرتبة الوسطى: كانت ردوده غالباً ما تكون واضحة وسهلة القراءة، وعلى مستوى قابلية الفهم كانت مشابة لـ ChatGPT-4.0، لكنها كانت تميل إلى أن تكون أقل تفصيلاً ودقة قليلاً. تلقى ChatGPT-3.5، النموذج الأقدم، أدنى الدرجات باستمرار، وغالباً ما قدم شروحات أقصر أو أقل اكتمالاً. ومن المثير للاهتمام أنه فيما يتعلق بالوضوح والبنية الأساسية، بدت النماذج الثلاثة متشابهة إلى حد أكبر، ما يوحي بأن جعل النص قابلاً للقراءة قد يكون أسهل من ضمان أن تكون كل التفاصيل الطبية صحيحة ومتوازنة جيداً. 
كانت تقييمات الأطباء متسقة إلى حد كبير مع بعضها البعض، مما يشير إلى أن النتائج لم تكن مدفوعة ببعض الآراء المتطرفة القليلة. كان هناك تَوجّه طفيف لألا يعطي الأطباء الأكثر خبرة درجات موثوقية أعلى قليلاً عموماً، لكن آرائهم لم تختلف كثيراً فيما يتعلق بمدى الود أو سهولة الفهم في الإجابات.
ماذا يعني هذا للاستخدام في العالم الحقيقي
بالنسبة للشخص العادي، الخلاصة أن الأدوات الذكية الحديثة—وخاصة ChatGPT-4.0—قادرة بالفعل على تقديم معلومات عن الحمل يراها العديد من أخصائيي التوليد معقولة من حيث الدقة والسلامة وسهولة القراءة. ومع ذلك، تؤكد الدراسة أيضاً حدوداً مهمة: فحتى أفضل نظام أداءً ليس طبيباً. لم يقارن الباحثون إجابات روبوتات الدردشة بمعايير إرشادية رسمية «كمعيار ذهبي»، ولم يختبروا كيف يفهم المرضى النصائح أو يتصرفون بناءً عليها. وبما أن العمل أُجري بالكامل باللغة التركية، فقد يختلف الأداء في لغات وثقافات أخرى.
بعبارة بسيطة، يمكن أن تكون هذه الروبوتات المساعدة مفيدة للتعلم عن الحمل، خصوصاً عندما تكون زيارة العيادة بعيدة أو وقت الطبيب محدود. قد تدعم المحادثات مع مقدمي الرعاية لكنها لا ينبغي أن تحل محلها. يشدد المؤلفون على أن الإشراف الخبير يظل ضرورياً لالتقاط الأخطاء وتجنب الطمأنينة الزائفة وللتأكد من أن الحالات الدقيقة أو عالية المخاطر تحصل على الرعاية الشخصية وجهًا لوجه التي تتطلبها.
الاستشهاد: Keyif, B., Yurtçu, E., Başbuğ, A. et al. Evaluation of AI language models in answering pregnancy-related questions assessed by obstetrics specialists. Sci Rep 16, 9322 (2026). https://doi.org/10.1038/s41598-026-40609-0
الكلمات المفتاحية: التثقيف حول الحمل, روبوتات الدردشة الذكية, النصائح الصحية عبر الإنترنت, أمراض النساء والولادة, جودة معلومات المرضى