Clear Sky Science · ar

تحويل نموذج الأساس لشبكية العين من شرائح إلى أحجام ثلاثية الأبعاد لتصوير التماسك البصري

· العودة إلى الفهرس

لماذا هذا مهم لصحة العين

أصبحت فحوصات العين أداة خط أول لاكتشاف الأمراض التي تهدد البصر قبل أن يلحظ المريض الأعراض. تستكشف هذه الدراسة طريقة جديدة لتمكين الذكاء الاصطناعي من قراءة أحد أقوى فحوصات العين — التصوير بالتماسك البصري (OCT) — عبر معاملته ليس كصورة مفردة، بل ككتلة ثلاثية الأبعاد شبيهة بالفيلم. هذا التحول يحسن قدرة الذكاء الاصطناعي على التعرف على الأسباب الرئيسية للعمى، مما قد يتيح فحوصات مبكرة وأكثر موثوقية في العيادات حول العالم.

Figure 1
Figure 1.

من لقطات مسطحة إلى رؤى ثلاثية الأبعاد

ينشئ OCT كتلة ثلاثية الأبعاد للشبكية مكوّنة من العديد من الشرائح العرضية الرقيقة. في الممارسة السريرية المعتادة، يتصفح أطباء العيون هذا الحجم بالكامل للبحث عن علامات المرض، مثل الرواسب الصغيرة في الضمور البقعي المرتبط بالعمر (AMD) أو التغيّرات البنيوية الدقيقة في الزَرَق. ومع ذلك، تتجاهل معظم نماذج الأساس الحالية للصور الشبكية هذا البناء ثلاثي الأبعاد الغني. فهي عادةً تنظر إلى شريحة مركزية واحدة فقط، بافتراض أنها تحتوي على أهم المعلومات. يرى المؤلفون أن هذا الاختصار يطرح جانبا كثيرًا مما يستخدمه الأطباء فعلاً، وقد يكون سببًا في تراجع أداء نظم الذكاء الاصطناعي مقارنة بالاحتياجات التشخيصية في العالم الحقيقي.

اقتراض أفكار من تحليل الفيديو

بدلاً من معاملة OCT كصورة وحيدة، تعامل الباحثون معه كما لو كان فيديو قصير: تسلسل من الشرائح يتقدم عبر عمق الشبكية. اعتمدوا نموذج أساس فيديو متقدمًا اسمه V-JEPA، مدرَّبًا أصلاً على مقاطع فيديو طبيعية يومية، وقاموا بتكييفه للعمل على OCT. مثل غيره من أنظمة الذكاء الاصطناعي الحديثة، يُدرَّب V-JEPA أولاً بأسلوب غير مراقَب ذاتيًا، حيث يتعلم توقع وملء المعلومات المفقودة دون الحاجة إلى تسميات. هذا يخلق "مفردات بصرية" عامة قوية يمكن للنموذج إعادة استخدامها لاحقًا. ثم قام الباحثون بضبط V-JEPA باستخدام مجموعات بيانات OCT معنونة أصغر ليمكنه التمييز بين العيون السليمة والمريضة.

الاختبار عبر دول وأمراض مختلفة

لاختبار ما إذا كانت هذه المقاربة ثلاثية الأبعاد مفيدة فعلاً، قارن الفريق V-JEPA بثلاثة نماذج أساس قوية تعتمد على الصور، بما في ذلك نموذجان دربا خصيصًا على صور الشبكية وواحد درب على صور فوتوغرافية طبيعية. استخدمت جميع النماذج بنى شبكات عصبية أساسية متشابهة، لذا تعكس فروق الأداء في المقام الأول طريقة استخدام البيانات لا حجمها أو تعقيدها. طُلب من النماذج اكتشاف مرضين رئيسيين للعين — اعتلال العصب البصري الزَرقي (شكل من أشكال الزَرَق) والضمور البقعي المرتبط بالعمر — باستخدام خمس مجموعات بيانات OCT مستقلة جُمعت في الولايات المتحدة والصين وإسرائيل وإيران، شاملة أجهزة مسح وسكان وأنماط مرضية مختلفة.

Figure 2
Figure 2.

إجابات أوضح من معلومات ثلاثية الأبعاد كاملة

عبر هذه المجموعات، كان V-JEPA القائم على الفيديو يضاهي أو يتفوق على جميع النماذج المعتمدة على الصور، محققًا متوسط مساحة تحت منحنى الاستقبال التشغيلي (ROC) قدره 0.94 مقارنةً بـ0.90 لأفضل نموذج شريحة مفردة — وهو تحسن ذو دلالة إحصائية. كانت الميزة أكبر في بعض مجموعات البيانات الأكثر تحديًا، حيث كان من الأصعب تمييز حالات المرض عن عدمه. أظهرت تحليلات خرائط الانتباه أن V-JEPA يركز على هياكل ذات صلة منتشرة عبر شرائح متعددة، وليس على الشريحة المركزية فقط. كشفت تحليلات الأخطاء أن نماذج الشريحة المفردة غالبًا ما تفوت حالات كان فيها المرض غائبًا أو طفيفًا في الشريحة الوسطى لكنه موجود في أماكن أخرى من الحجم. من خلال زيادة التغطية المكانية بفاعلية وتعلّم علاقة الشرائح ببعضها، استطاع النموذج ثلاثي الأبعاد التقاط هذه الأنماط بشكل أفضل.

موازنة الأداء والعملية

قارن المؤلفون أيضًا V-JEPA بطرق أخرى لاستخدام المعلومات ثلاثية الأبعاد، مثل الشبكات الالتفافية ثلاثية الأبعاد التقليدية المدربة من الصفر وطريقة "2.5D" التي تعالج العديد من الشرائح واحدة تلو الأخرى بنموذج صور ثم تدمج النتائج. تفوّق V-JEPA عادةً على هذه البدائل مع حاجة حسابية أقل من استراتيجية 2.5D. وبشكل مهم، ظلت فوائده قائمة حتى عند توفر كميات معتدلة فقط من البيانات المعنونة، واستمر أداؤه في التحسن مع زيادة بيانات التدريب، بينما ميّلت النماذج المعتمدة على الصور إلى التشبع. على الرغم من أن تحليل الأحجام أبطأ من قراءة شريحة واحدة، بقي زمن المعالجة الإضافي صغيرًا — في مدى مئات من الثانية لكل فحص على الأجهزة الحديثة.

ماذا يعني هذا لرعاية العيون في المستقبل

بالنسبة لغير المتخصصين، الخلاصة بسيطة: السماح للذكاء الاصطناعي برؤية الشبكية في شكل ثلاثي الأبعاد، كما يفعل الأطباء، يؤدي إلى كشف آلي أدق للأمراض المسببة للعمى الشائعة. تشير هذه الدراسة إلى أن نماذج الأساس المستقبلية لتصوير العيون ينبغي تصميمها من البداية للتعامل مع أحجام OCT الكاملة، لا مجرد لقطات فردية. وبالاشتراك مع مشاركة بيانات أوسع ودمجها في نهاية المطاف مع معلومات سريرية أخرى، يمكن لمثل هذه النماذج أن تساعد في توسيع نطاق فحوصات موثوقة وعالية الجودة للزَرَق والضمور البقعي إلى عدد أكبر من العيادات والمرضى حول العالم.

الاستشهاد: Judkiewicz, R., Berkowitz, E., Meisel, M. et al. Shifting the retinal foundation models paradigm from slices to volumes for optical coherence tomography. npj Digit. Med. 9, 314 (2026). https://doi.org/10.1038/s41746-026-02496-7

الكلمات المفتاحية: التصوير بالتماسك البصري, الذكاء الاصطناعي لتصوير الشبكية, الضمور البقعي المرتبط بالعمر, كشف الزَرَق, نماذج أساس الفيديو