Clear Sky Science · ar
تقييم استراتيجيات ملء القيم المفقودة في بيانات السلاسل الزمنية للرعاية الحرجة باستخدام سيناريوهات مستوحاة من العالم الواقعي
لماذا يهم ملء فراغات البيانات لمرضى وحدة العناية المركزة
في وحدات العناية المركزة الحديثة، يُسجَّل كل نبضة قلب، وكل نفس، وكل نبضة ضغط دم كسلسلة مستمرة من الأرقام. ومع ذلك، في العالم الحقيقي، تكون هذه السلاسل مليئة بالثغرات: تنفصل المستشعرات، يخرج المرضى من السرير لإجراء فحوص، وتُطفأ الأجهزة مؤقتًا. عندما يستخدم الأطباء أو الحواسيب هذه السجلات غير المكتملة للتنبؤ بمستقبل المريض أو توجيه العلاج، فإن طريقة «ملء» هذه الأجزاء المفقودة قد تغيّر بدرجة طفيفة الرواية التي ترويها البيانات. تبحث هذه الدراسة سؤالًا عمليًا له تداعيات كبيرة: من بين مجموعة واسعة من استراتيجيات ملء الفراغات — من خطوط بسيطة مستقيمة إلى ذكاء اصطناعي متقدم — أيها ينجح أفضل تحت أنماط الفراغات التي تحدث فعليًا في وحدات العناية المركزة؟

نظرة أدق على العلامات الحيوية في وحدة العناية المركزة
استند الباحثون إلى MIMIC-IV، قاعدة بيانات عامة كبيرة لحالات البقاء في وحدات العناية المركزة مُصحَّحة الهوية من مستشفى أميركي. ركزوا على 26,167 إقامة للبالغين وفحصوا أول 48 ساعة بعد دخول الوحدة، متتبعين أربع علامات حيوية تُرصد باستمرار عند السرير: معدل ضربات القلب، ومستوى أكسجة الدم، ومعدل التنفس، ومتوسط ضغط الدم. للحفاظ على معقولية الإشارات، أُزيلت القراءات المستحيلة بوضوح، ولُخّصت كل القياسات بقراءة واحدة لكل ساعة. اعتُبر أي ساعة ليس لديها قيمة مسجلة لعلامة حيوية معيّنة مفقودة. وعلى الرغم من أن حوالي 4% فقط من القيم كانت غائبة، وجد الفريق أن هذه الفجوات لم تكن موزعة عشوائيًا — بل غالبًا ما تجمعت في الجزء الأخير من نافذة الـ48 ساعة وأحيانًا أثرت على عدة علامات حيوية في آن واحد.
كيف أعيد إنشاء فجوات البيانات الواقعية
بدلاً من اختراع أنماط غيابية صناعية بحتة، بنى المؤلفون ثلاث سيناريوهات مستوحاة مما لاحظوه في البيانات الخام وما يراه الأطباء بجانب السرير. في السيناريو الأول، حُذفت قراءات فردية عشوائيًا، مقلدةً القياسات المفقودة العرضية. في السيناريو الثاني، اختفت كتل تتراوح من ساعة إلى ثلاث ساعات عبر جميع العلامات الحيوية الأربع معًا، ممثلةً أوقات ابتعاد المريض عن المراقبة — على سبيل المثال أثناء إجراء فحص تصويري. في السيناريو الثالث، حُذفت علامة حيوية واحدة — مثل ضغط الدم — لامتداد مستمر مدته أربع ساعات، مما يعكس مستشعرًا فاشلًا أو مسبارًا مترهلًا. أزالت كل سيناريوهات حوالي 30% من البيانات، مما شكل اختبارًا صارمًا لأي طريقة تسعى لإعادة بناء المنحنيات الأصلية.
الطرق القديمة مقابل ذكاء الآلة الحديث
قارن الفريق بعد ذلك مجموعة واسعة من طرق إعادة البناء بعضها ببعض. شملت الأساليب البسيطة ملء كل فجوة بقيمة متوسط المريض، أو حمل آخر قراءة مُشاهدَة إلى الأمام، أو رسم خط مستقيم بين أقرب نقطتين معروفتين. حاولت أدوات إحصائية أكثر تقدمًا التنبؤ بالقيم المفقودة من العلامات الحيوية الأخرى، لكن ذلك استدعى تسطيح البعد الزمني ومعاملة كل ساعة كصف في جدول. في الطرف الآخر من الطيف كانت نماذج التعلم العميق — محوّلات، شبكات متكررة، ونماذج توليدية — التي تتعلم صراحةً أنماطًا عبر الزمن وعبر المتغيرات. دُربت جميع النماذج على بيانات أُخفِيَ فيها عشوائيًا 30% من القيم، ثم اختُبرت على كلٍ من السيناريوهات الثلاثة للتمويه. قُيِّم الأداء بحسب مدى انحراف إعادة البناء عن الأرقام الأصلية، مع اهتمام خاص بأخطاء متوسط ضغط الدم، وهو إشارة حاسمة لإدارة الدوران الدموي.

ما الذي نجح، ومتى، وبأي قدر
بشكل عام، قدَّمت النماذج الأكثر تطورًا — خصوصًا نهج قائم على المحوّل وشبكة تنافسية توليدية — أدنى معدلات خطأ متوسطة، لا سيما عندما كانت الفجوات قصيرة أو متناثرة. ومع ذلك، أثبتت طريقة متواضعة — الاستيفاء بخط مستقيم — أداءً جيدًا بشكل لافت، مقتربةً من هذه النماذج العصبية في كثير من الحالات. تقِصّرت الأدوات الإحصائية التي تجاهلت ترتيب القياسات، مثل الغابات العشوائية والمعادلات المتسلسلة، عن الركب رغم تعقيدها. شكل الفجوات كان له أيضًا أثر. عندما كانت القيم مفقودة عشوائيًا، بدا أداء جميع الطرق أفضل، مما أعطى صورة متفائلة مبالغًا فيها عن دقتها. أما الثغرات الطويلة والمستمرة في السجل، خاصة عبر عدة ساعات أو مستشعر وحيد فاشل، فكانت أصعب بكثير في الملء الصحيح. في هذه البيئات الأصعب تدهور أداء أفضل طرق التعلم العميق بشكل ألطف مقارنةً بالأساليب البسيطة، لكن المكاسب غالبًا ما كانت متواضعة عند تحويلها إلى وحدات ضغط دم فعلية.
لماذا تهم النتائج لاتخاذ القرارات بجانب السرير
في نطاقات ضغط الدم اليومية، كان الفرق بين أفضل نماذج التعلم العميق واستيفاء الخط المستقيم غالبًا مجرد بضعة مليمترات زئبق — عادةً صغيرة لدرجة لا تغيّر قرار الطبيب. ومع ذلك، ناضلت كل الطرق، بما في ذلك الأكثر تقدمًا، عندما كان ضغط الدم منخفضًا جدًا أو مرتفعًا جدًا — وهي اللحظات التي تكون المراقبة الدقيقة فيها الأكثر أهمية. تختتم الدراسة بأن اختيار طريقة التعامل مع البيانات المفقودة في وحدات العناية المركزة يتعلق بفهم كيفية ومكان حدوث الفجوات بقدر ما يتعلق باختيار أحدث خوارزمية. يمكن للنماذج المتقدمة أن تقدّم مكاسب متدرجة، لا سيما للفجوات الأطول أو الأكثر تعقيدًا، لكن الأساليب البسيطة الشفافة قد تكون كافية للعديد من الاستخدامات العملية. والأهم من ذلك، أن تحسين ملء الفجوات لا يضمن تلقائيًا تحسين النماذج التنبؤية؛ لذا يجب على الأعمال المستقبلية اختبار كيف تؤثر اختيارات إعادة البناء هذه على القرارات السريرية الحقيقية.
الاستشهاد: Poette, M., Mouysset, S., Ruiz, D. et al. Benchmarking imputation strategies for missing time-series data in critical care using real-world-inspired scenarios. Sci Rep 16, 8116 (2026). https://doi.org/10.1038/s41598-026-39035-z
الكلمات المفتاحية: سلاسل زمنية في وحدة العناية المركزة, البيانات المفقودة, طرق الاستيفاء, التعلم العميق, العلامات الحيوية