Clear Sky Science · ar
نماذج لغوية كبيرة مُحبّبة ومحسّنة مع مطالبات مُنظَّمة تمكّن البناء الفعّال لمخططات معرفة سرطان الرئة
لماذا تحويل النصوص الطبية إلى خرائط مهم
يُعد سرطان الرئة أحد أكثر السرطانات فتكا في العالم، والمعلومات حول تشخيصه وطرق علاجه متناثرة عبر أوراق البحث، وملاحظات المستشفيات، والاستشارات عبر الإنترنت، وكتب الطب التقليدي. يكافح الأطباء والباحثون لمواكبة هذا الكمّ من النصوص. تستكشف هذه الدراسة نهجًا جديدًا لتحويل تلك المعارف المتفرقة تلقائيًا إلى "خريطة" واحدة قابلة للتنقّل — مخطط معرفة عن سرطان الرئة — باستخدام نموذج لغوي كبير مُحسّن ومطالبات مُنظَّمة بعناية. يهدف الناتج إلى جعل المعرفة الطبية المعقّدة أسهل للبحث بواسطة الحواسيب وللاستخدام من قِبل الخبراء في أدوات دعم القرار.
من الحكايات المتناثرة إلى الحقائق المترابطة
يركّز المؤلفون على فكرة بسيطة: إذا أمكن استخراج من-يفعل-ماذا-لمن من النص الطبي بشكل موثوق، فيمكن ضمّ تلك الحقائق إلى رسم بياني. عمليًا، يعني هذا تحويل الجمل الحرّة إلى وحدات بنائية صغيرة تُسمى ثلاثيات — أزواج من الكيانات مرتبطة بعلاقة، مثل "سرطان الرئة – يُعالج بواسطة – الكيميائيّات". الطرق التقليدية لبناء مثل هذه المخططات تتطلب جيوشًا من المعلّقين أو قواعد هشة تفوّت الدقائق والاكتشافات الجديدة. للتغلّب على ذلك، يقوم الفريق بتحسين نموذج لغوي صيني قائم، ChatGLM-6B، ليختص في رصد الثلاثيات ذات الدلالة الطبية حول سرطان الرئة من مجموعة واسعة من المصادر، بدءًا من دردشات المرضى مع الأطباء على الإنترنت إلى قواعد بيانات شبه منظمة وسجلات الطب الصيني التقليدي. 
تعليم الذكاء الاصطناعي التفكير بوحدات مرتبة
الطلب ببساطة من نموذج لغوي عام "استخراج المعلومات" غالبًا ما يُنتج إجابات فوضوية ومُتلفّظة. لذلك صمّم الباحثون مخطط مطالبات صارمًا ثمّ حسّنوا النموذج على ما يقرب من 50,000 مثال لسلوك جيد. يُظهر كل مثال تعليمات والمخرجات المتوقعة بصيغة ثلاثية محددة بالضبط. تُخبِر المطالبة النموذج بالتصرّف كخبير تنقيب نصّي محترف، وإنتاج ثلاثيات مُنظمة فقط بصيغة قابلة للقراءة آليًا، و"التفكير خطوة بخطوة" عندما تحتوي الجمل على تفاصيل متداخلة — مثل علاج ودواء مستخدم وجرعته. هذا المزيج من تعريف الدور، وقواعد الصيغة، والتفكير التدريجي يحول النموذج — الذي يُطلق عليه الآن KGLM — من مُساعد محادثة إلى مُستخرج منضبط للحقائق الجاهزة للآلة.
دمج أصوات متعددة في مخطط واحد واضح
الثلاثيات الخام المستخرجة من النص ليست سوى جزء من القصة. نفس المرض أو الدواء غالبًا ما يظهر بأسماء مختلفة — مثل "مرض الانسداد الرئوي المزمن" مقابل "COPD" على سبيل المثال. لتفادي الفوضى والالتباس، صمّم المؤلفون مرحلة دمج تدمج الكيانات المماثلة عبر ثلاث مصادر بيانات: نص الويب غير المنظم، حالات سريرية شبه منظمة، ومخططات معرفة طبية موجودة. أولًا، يفحص فحص تشابه سلاسل سريع التطابقات الواضحة. عندما لا يكون ذلك كافيًا، يقارن نموذج تشابه دلالي أعمق (Sentence-BERT) المعاني في السياق. تُدمَج الكيانات التي تُحكََم كمكرّرة في عقدة معيارية واحدة، مع تفضيل الأسماء الأقصر وتخزين الصيغ الأخرى كأسماء مستعارة. ثم يراجع الخبراء الحالات الحديّة ويزيلون العبارات المضلّلة أو منخفضة الجودة، ما ينتج عنه مخطط معرفة أنظف وأكثر اتساقًا عن سرطان الرئة مخزّن في قاعدة بيانات Neo4j. 
ما مدى فعالية هذه الخريطة المعرفية؟
لقياس الأداء، يقارن الفريق KGLM بالنهج التقليدية في التعلم العميق المبنية على BERT والشبكات التلافيفية، وكذلك بالنموذج الأصلي ChatGLM غير المُحسَّن. في مهمة استخراج العلاقات — تحديد أي الكيانات مرتبطة وكيف — يحقق KGLM المُحسّن والموجَّه بالمطالبات درجة F1 تقارب 0.82، متفوقًا على جميع الأساسيات المختبرة ومحسنًا بنحو 25 في المئة عن النموذج الابتدائي. تظهر اختبارات الإزالة أن كل عنصر من عناصر المطالبة مهم: حذف دور الخبير، أو صيغة الثلاثيات الصارمة، أو توجيه "التفكير خطوة بخطوة" يؤدي جميعًا إلى تراجع الدقة، خاصةً في الجمل المعقّدة ذات الصفات المتداخلة أو مصطلحات الطب الصيني التقليدي. كما يقدّر فريق من الخبراء السريريين والمعلوماتيين أن المخطط الناتج أكثر دقة وقابلية للاستخدام وملاءمة سريرية من المخططات المبنية دون تحسين أو مطالبات مُنظَّمة.
ماذا يعني هذا لأدوات الطب المستقبلية
بعبارات بسيطة، تُظهر الدراسة أنه مع التدريب والتعليمات المناسبة، يمكن لنموذج لغوي كبير أن يحوّل نص سرطان الرئة الواقعي والفوضوي بكفاءة إلى شبكة حقائق منظمة قابلة للبحث. يشير هذا المخطط المعرفي لسرطان الرئة، رغم كونه نموذجًا بحثيًا أوليًا ومقتصرًا على مصادر صينية ولمنطقة مرض واحدة، إلى مستقبل قد تدعم فيه "خرائط المعرفة" المحدثة باستمرار أنظمة دعم القرار، وأدوات التعليم، واستكشاف البحث. يؤكد المؤلفون أن مثل هذه المخططات يجب التحقق منها بدقة وتحديثها بانتظام، وليست جاهزة لتوجيه الرعاية دون إشراف خبير. ومع ذلك، تشير نتائجهم إلى أن النماذج اللغوية المحسّنة إلى جانب المطالبات الذكية يمكن أن تجعل مهمة تنظيم المعرفة الطبية الكبيرة أكثر قابلية للتوسع وفي الوقت المناسب.
الاستشهاد: Zhou, C., Gong, Q., Luan, H. et al. Fine-tuned large language models with structured prompts enable efficient construction of lung cancer knowledge graphs. Sci Rep 16, 9505 (2026). https://doi.org/10.1038/s41598-026-38959-w
الكلمات المفتاحية: سرطان الرئة, مخطط معرفة, نموذج لغوي كبير, استخراج العلاقات, الذكاء الاصطناعي الطبي