Clear Sky Science · ar

استخراج العلاقات وتطبيع المفاهيم المعتمدان على نماذج المحولات باستخدام مجموعة مؤشرات سريرية معنونة

· العودة إلى الفهرس

مساعدة الأطباء على إيجاد المرضى المناسبين بسرعة أكبر

كل تجربة سريرية تعتمد على إيجاد مرضى يستوفون قائمة طويلة من الحالات الطبية والعلاجات والفترات الزمنية. اليوم، غالباً ما يضطر الأطباء لقراءة السجلات الصحية الإلكترونية ووصف التجارب يدوياً، وهذا بطيء ومعرض للأخطاء. تعرض هذه المقالة مجموعة كبيرة ومفحصة بعناية من نصوص التجارب السريرية بالإسبانية وتوضح كيف يمكن للذكاء الاصطناعي الحديث تحويل ذلك اللغة غير المهيكلة إلى بيانات منظمة، ممهدة الطريق لأبحاث طبية أسرع وأكثر عدلاً ودقة.

Figure 1
الشكل 1.

تحويل النص الحر إلى معلومات منظمة

تصف التجارب السريرية من يمكنه المشاركة ومن لا يمكنه ذلك مستخدمة لغة طبية يومية: حدود العمر، الأمراض السابقة، نتائج المختبرات، والعلاجات التي جُرِّبت. تتعثر الحواسيب مع هذا النوع من النصوص الحرة. أنشأ المؤلفون الإصدار 3 من مجموعة CT‑EBM‑SP، وهي قاعدة بيانات تضم 1,200 نص تجربة سريرية بالإسبانية تحتوي على نحو 300,000 كلمة. راجع خبراء بشريون هذه النصوص ووضعوا علامات على 23 نوعاً من الكيانات الطبية، مثل الأمراض، والأدوية، ونتائج الفحوص، والتعبيرات الزمنية، وكذلك إشارات النفي (مثلاً «لا تاريخ لـ») وعدم اليقين. كما وضعوا تسميات لـ 11 سمة تلتقط تفاصيل مثل ما إذا كان الحدث في الماضي أو المستقبل وما إذا حدث للمريض نفسه أو لأحد أفراد العائلة.

جعل المصطلحات الطبية تتكلم بلغة واحدة

تحدٍّ كبير في الطب هو أن نفس المفهوم يمكن كتابته بطرق عديدة. لحل ذلك، ربط الفريق معظم الكيانات المعلّمة برموز موحدة من نظام اللغة الطبية الموحد (UMLS)، وهو قاموس طبي ضخم متعدد اللغات. تُعرف هذه الخطوة بتطبيع المفاهيم، وتعني أن تهجئات أو عبارات مختلفة تشير إلى نفس المعرف الفريد. على سبيل المثال، تُربط عدة صيغ لـ «25‑هيدروكسيفيتامين د» بمفهوم واحد في UMLS. إجمالاً، تشمل المجموعة أكثر من 87,000 كيان وأكثر من 68,000 علاقة، وتمّ تطبيع نحو 82% من الكيانات بنجاح. قام خبيران بفحص هذه الروابط بشكل مستقل، وحققا اتفاقاً عالياً جداً، ما يدل على موثوقية التعليقات التوضيحية.

Figure 2
الشكل 2.

التقاط كيفية ارتباط الحقائق الطبية ببعضها

بعيداً عن تعداد المصطلحات الطبية، تسجل مجموعة البيانات كيف ترتبط هذه المصطلحات ببعضها. صمم المؤلفون 18 نوعاً من العلاقات لالتقاط أنماط مهمة في التجارب، مثل أي جرعة تنتمي لأي دواء، ومدة العلاج، أو أي حالة يعاني منها المريض. تُظهر العلاقات الزمنية ما إذا كان حدث ما يحدث قبل أو بعد حدث آخر، وعلامات أخرى تشير إلى مكان حدوث المرض في الجسد أو ما إذا كانت العبارة تعبر عن نفي أو تكهن. تسمح هذه العلاقات مجتمعة للحواسيب ببناء رسوم بيانية لحالة المريض — من هو المريض، وما الحالة التي يعانيها، وما العلاج الذي يتلقاه، وتوقيته — بدل الاكتفاء بالتعرّف على كلمات معزولة.

تدريب واختبار نماذج الذكاء الاصطناعي الحديثة

لإثبات أن المجموعة مفيدة عملياً، قام المؤلفون بتكييف عدة نماذج ذكاء اصطناعي معتمدة على المحولات، بما في ذلك نسخ متعددة اللغات من BERT وRoBERTa. درّبوا هذه النماذج على مهمتين: استخراج العلاقات، التي تتعلم استرجاع الروابط بين الكيانات، وتطبيع المفاهيم الطبية، التي تربط النصّ برموز UMLS. في مهمة استخراج العلاقات، بلغ أفضل نموذج درجة F1 تقارب 0.88، ما يعني أنه تعرّف بشكل صحيح على معظم العلاقات مع عدد نسبي قليل من الأخطاء. أما في تطبيع المفاهيم، فقد تنبّأ نموذج متعدد اللغات يسمى SapBERT بالمفهوم الصحيح في محاولته الأولى ما يقارب 90% من الوقت دون تدريب إضافي. تظهر هذه النتائج أن مجموعات بيانات متوسطة الحجم ومعنونة جيداً تستطيع تشغيل نماذج دقيقة وفعالة حتى دون الاعتماد على نظم لغوية عامة هائلة.

لماذا تهم هذه المورد للرعاية المستقبلية

توفر مجموعة CT‑EBM‑SP والنماذج المرتبطة بها أساساً لأدوات يمكنها تحليل نصوص التجارب السريرية بالإسبانية آلياً، ومطابقتها مع سجلات المرضى، ودعم اكتشاف المجموعات في المستشفيات. وبما أن البيانات متوافقة مع المعايير الطبية الدولية وقد راجعها خبراء بعناية، فيمكن أن تساعد أيضاً على تطوير موارد مشابهة للغات أخرى ذات أدوات رقمية أقل. بعبارة بسيطة، يتعلق هذا العمل بتسهيل جعل المرضى المناسبين يتلقون العروض المناسبة للتجارب، مما يسرّع الاكتشافات الطبية ويقلّل العبء عن المتخصصين في الرعاية الصحية.

الاستشهاد: Campillos-Llanos, L., Valverde-Mateos, A., Capllonch-Carrión, A. et al. Transformer-based relation extraction and concept normalization using an annotated clinical trials corpus. Sci Data 13, 280 (2026). https://doi.org/10.1038/s41597-026-06608-6

الكلمات المفتاحية: التجارب السريرية, تنقيب النصوص الطبية, الرعاية الصحية بالإسبانية, نماذج المحولات, الطب المستند إلى الأدلة